Modelos, uso e limites no Claude Code

Este guia explica qual modelo você está usando, como o uso é medido e como manter sessões longas dentro de seus limites de contexto e uso.

Como o uso é medido

A forma como você se conectou determina como o uso é medido. Tudo mais sobre Claude Code funciona da mesma forma independentemente.

Você se conectou com…	Você obtém	Como fica quando "acaba"
Assento Claude Enterprise (via `/login`)	Um pool de uso incluído no plano da sua organização, redefinido em uma janela contínua.	Uma mensagem "limite atingido, redefine em hora".
Chave de API (Console, Bedrock, Vertex ou Microsoft Foundry)	Pagamento conforme o uso, cobrado por token para essa conta de nuvem ou Console.	Sem parada forçada; a conta é cobrada pelo que usa.

Se você se conectou com um assento Enterprise, geralmente não precisa pensar em tokens até atingir um limite. Se você está usando uma chave de API, o comando /cost mostra seu gasto em execução para a sessão atual.

Escolhendo um modelo

Execute /model a qualquer momento para ver quais modelos estão disponíveis para sua conta e para alternar entre eles. Como um guia aproximado:

Sonnet é o padrão e é a escolha certa para a grande maioria do trabalho de codificação. É rápido, capaz e econômico.
Opus oferece raciocínio mais profundo para problemas mais difíceis, como refatorações amplas, depuração difícil ou decisões arquitetônicas. Usa significativamente mais da sua cota, então mude para ele quando precisar, em vez de deixá-lo ativado por padrão.
Haiku é a opção mais rápida e barata, bem adequada para consultas rápidas, edições simples ou execuções de script em alto volume.

Você pode alterar modelos no meio da sessão sem perder sua conversa. Um padrão comum é planejar com Opus e executar com Sonnet.

Nota: Nomes exatos de modelos, versões e disponibilidade mudam ao longo do tempo. O comando /model é sempre a fonte de verdade para sua conta.

O que realmente consome tokens

Cada turno envia três coisas para o modelo:

A conversa até agora — cada mensagem anterior nesta sessão.
Contexto do projeto — seu CLAUDE.md e quaisquer arquivos que Claude tenha lido.
Seu novo prompt.

Destes, o primeiro item cresce mais rápido. Uma sessão de depuração longa na qual Claude leu vinte arquivos e produziu quinze diffs está carregando tudo isso em cada mensagem subsequente. É aqui que tanto o custo quanto os limites de contexto se originam.

Gerenciando a janela de contexto

A janela de contexto é a quantidade máxima de texto que o modelo pode considerar de uma vez. Claude Code mostra um indicador ao vivo de quão cheia está. Quando se enche, Claude não consegue mais ver claramente as partes mais antigas da conversa e a qualidade cai.

Dois comandos mantêm isso sob controle:

/clear limpa a conversa e começa do zero. Seu CLAUDE.md e arquivos de projeto permanecem disponíveis; apenas o histórico de chat é removido. Use isso sempre que você mudar de tarefa, pois é a alavanca mais eficaz para qualidade e custo.
/compact resume a conversa até agora em um breve resumo, liberando espaço enquanto preserva o contexto essencial. Use isso quando você está no meio da tarefa e precisa continuar. Claude Code também compacta automaticamente quando você se aproxima do limite, então você raramente atingirá uma parede dura.

Regra de ouro: use /clear ao iniciar uma nova tarefa e /compact ao continuar uma longa.

Cinco hábitos que estendem seu uso ao máximo

Quase todo relatório "queimei meu limite antes do almoço" remonta a um desses cinco.

1. Limpar entre tarefas

Cada mensagem anterior é reenviada a cada turno, então uma sessão que vagou por três problemas não relacionados paga por todos os três em cada nova mensagem.

Na prática: você acabou de terminar de depurar um redirecionamento de login e agora quer escrever uma migração de banco de dados. Execute /clear primeiro. Um teste simples: se seu próximo prompt faria sentido perfeito em um terminal novo, limpe antes de enviar. Seu CLAUDE.md e arquivos de projeto permanecem; apenas o histórico de chat vai.

Um aviso: /clear não pode ser desfeito. Se você ainda pode precisar de algo do histórico, copie-o primeiro ou execute /compact em vez disso, que preserva um resumo em vez de apagar tudo.

2. Corresponder o modelo ao trabalho

Opus custa várias vezes mais por turno do que Sonnet, e Sonnet mais do que Haiku. Gastar Opus em trabalho rotineiro é a maneira mais rápida de drenar um limite diário.

Padrões razoáveis: Sonnet para a maioria da codificação (recursos, testes, bugs conhecidos, refatorações); Opus quando você está genuinamente preso ou a mudança é ampla (depuração difícil, refatorações amplas, chamadas de arquitetura); Haiku para trabalho mecânico rápido (renomeações, linhas de log, explicações de regex, boilerplate).

3. Apontar para arquivos em vez de colá-los

Qualquer coisa que você cola fica em contexto, na íntegra, pelo resto da sessão. Referenciar um arquivo por caminho permite que Claude leia seletivamente e se concentre na parte que você se importa.

Na prática: em vez de colar auth.ts, escreva olhe para a função validateToken em src/auth.ts — mencionar o caminho permite que Claude abra e leia seletivamente. (Observe que o prefixo @ injeta o arquivo inteiro mais sua árvore CLAUDE.md no contexto, então use um caminho simples quando você está tentando economizar tokens.) Para logs e rastreamentos de pilha, corte para as 20 ou 30 linhas relevantes antes de colar. Para qualquer coisa grande (lockfiles, logs de compilação, despejos de dados), coloque-a no disco e referencie o caminho.

4. Manter CLAUDE.md enxuto

Este arquivo é antecedido a cada turno. O cache de prompt significa que os turnos após o primeiro são cobrados na taxa de leitura de cache muito mais barata, então o custo em dólares é menor do que a contagem de linhas brutas sugere, mas ainda ocupa espaço de janela de contexto em cada mensagem.

A regra: dois strikes, mantenha-o apertado. Adicione uma nota apenas na segunda vez que você tiver que corrigir Claude na mesma coisa (problemas de primeira vez geralmente são únicos). Mantenha o arquivo com menos de aproximadamente 200 linhas; se algo novo precisar entrar e não houver espaço, algo antigo terá que sair.

Quando atualizá-lo: logo após uma sessão em que você teve que corrigir Claude duas vezes na mesma coisa. É quando a correção é fresca e leva um minuto para anotar. A cada poucas semanas, leia o arquivo inteiro e delete qualquer coisa que não seja mais verdadeira ou cujo propósito você não consiga lembrar. Notas obsoletas são piores do que notas ausentes porque desviam ativamente Claude.

5. Peça um plano antes de grandes mudanças

Um plano custa algumas centenas de tokens. Um diff errado de 400 linhas que você reverte e regenera custa milhares, duas vezes, mais os turnos gastos explicando o que deu errado. Na prática: para qualquer coisa tocando mais de dois ou três arquivos, mude para o Modo de Plano ou apenas pergunte: "Antes de mudar qualquer coisa, liste os arquivos que você tocará e o que fará em cada um." Leia a lista, corrija-a em inglês simples ("pule legacy/ e não toque nos testes ainda"), então deixe executar.

Dica profissional: planeje com Opus, execute com Sonnet. O uso de maior valor do Opus é escrever o próprio plano, onde o raciocínio mais profundo realmente compensa. Uma vez que um bom plano existe, a execução é principalmente mecânica e Sonnet a manipula por uma fração do custo. Este padrão é construído como /model opusplan, que usa Opus durante o planejamento e Sonnet para execução. Alternar modelos não limpa a conversa, então Sonnet ainda vê tudo que Opus produziu.

O que fazer quando você atinge um limite

Usuários de assento Enterprise: a mensagem informa quando sua janela é redefinida. Enquanto isso, você pode mudar para um modelo mais leve com /model, ou, se sua organização permitir, voltar temporariamente para uma chave de API.
Usuários de chave de API: não há limite de uso, mas verifique /cost e seu painel do Console ou provedor de nuvem se o gasto for uma preocupação. Números inesperadamente altos quase sempre remontam a sessões muito longas que nunca foram limpas.
Janela de contexto cheia (que é diferente de um limite de uso): execute /compact para continuar, ou /clear se o histórico mais antigo não for mais necessário.

Referência rápida

Comando	O que faz
`/model`	Veja e alterne modelos disponíveis.
`/cost`	Mostrar o uso de token e dólar desta sessão (faturamento de API).
`/clear`	Inicie uma conversa nova (memória do projeto permanece).
`/compact`	Resumir histórico para liberar contexto.
`/context`	Inspecione o que está carregado no contexto.