Este guia explica qual modelo você está usando, como o uso é medido e como manter sessões longas dentro de seus limites de contexto e uso.
Como o uso é medido
A forma como você se conectou determina como o uso é medido. Tudo mais sobre o Claude Code funciona da mesma forma independentemente.
Você se conectou com… | Você obtém | Como fica quando "acaba" |
Assento Claude Enterprise (via | Um pool de uso incluído no plano da sua organização, redefinido em uma janela contínua. | Uma mensagem "limite atingido, redefine em hora". |
Chave de API (Console, Bedrock ou Vertex) | Pagamento conforme o uso, cobrado por token para essa conta de nuvem ou Console. | Sem parada forçada; a conta é cobrada pelo que usa. |
Se você se conectou com um assento Enterprise, geralmente não precisa pensar em tokens até atingir um limite. Se você está usando uma chave de API, o comando /cost mostra seu gasto em tempo real para a sessão atual.
Escolhendo um modelo
Execute /model a qualquer momento para ver quais modelos estão disponíveis para sua conta e para alternar entre eles. Como um guia aproximado:
Sonnet é o padrão e é a escolha certa para a grande maioria do trabalho de codificação. É rápido, capaz e econômico.
Opus oferece raciocínio mais profundo para problemas mais difíceis, como refatorações amplas, depuração difícil ou decisões arquitetônicas. Usa significativamente mais da sua cota, então mude para ele quando precisar, em vez de deixá-lo ativado por padrão.
Haiku é a opção mais rápida e barata, bem adequada para consultas rápidas, edições simples ou execuções de scripts em alto volume.
Você pode alterar modelos no meio da sessão sem perder sua conversa. Um padrão comum é planejar com Opus e executar com Sonnet.
Nota: Nomes exatos de modelos, versões e disponibilidade mudam ao longo do tempo. O comando /model é sempre a fonte de verdade para sua conta.
O que realmente consome tokens
Cada turno envia três coisas para o modelo:
A conversa até agora — cada mensagem anterior nesta sessão.
Contexto do projeto — seu
CLAUDE.mde quaisquer arquivos que Claude tenha lido.Seu novo prompt.
Destes, o primeiro item cresce mais rapidamente. Uma longa sessão de depuração em que Claude leu vinte arquivos e produziu quinze diffs está carregando tudo isso em cada mensagem subsequente. É aqui que tanto o custo quanto os limites de contexto se originam.
Gerenciando a janela de contexto
A janela de contexto é a quantidade máxima de texto que o modelo pode considerar de uma vez. O Claude Code mostra um indicador ao vivo de quão cheio está. Quando fica cheio, Claude não consegue mais ver claramente as partes mais antigas da conversa e a qualidade cai.
Dois comandos mantêm isso sob controle:
/clearlimpa a conversa e começa do zero. SeuCLAUDE.mde arquivos de projeto permanecem disponíveis; apenas o histórico de chat é removido. Use isso sempre que você mudar de tarefa, pois é a alavanca mais eficaz para qualidade e custo./compactresume a conversa até agora em um breve resumo, liberando espaço enquanto preserva o contexto essencial. Use isso quando você está no meio de uma tarefa e precisa continuar. O Claude Code também compacta automaticamente quando você se aproxima do limite, então você raramente atingirá uma parede dura.
Regra de ouro: use /clear ao iniciar uma nova tarefa e /compact ao continuar uma longa.
Cinco hábitos que estendem seu uso ao máximo
Quase todo relatório "queimei meu limite antes do almoço" remonta a um desses cinco.
1. Limpe entre tarefas
Cada mensagem anterior é reenviada a cada turno, então uma sessão que passou por três problemas não relacionados paga por todos os três em cada nova mensagem. Na prática: você acabou de terminar de depurar um redirecionamento de login e agora quer escrever uma migração de banco de dados. Execute /clear primeiro. Um teste simples: se seu próximo prompt faria sentido perfeito em um terminal novo, limpe antes de enviar. Seu CLAUDE.md e arquivos de projeto permanecem; apenas o histórico de chat vai. Um aviso: /clear não pode ser desfeito. Se você ainda pode precisar de algo do histórico, copie-o primeiro ou execute /compact em vez disso, que preserva um resumo em vez de apagar tudo.
2. Combine o modelo com o trabalho
Opus custa várias vezes mais por turno do que Sonnet, e Sonnet mais do que Haiku. Gastar Opus em trabalho rotineiro é a forma mais rápida de drenar um limite diário. Padrões razoáveis: Sonnet para a maioria da codificação (recursos, testes, bugs conhecidos, refatorações); Opus quando você está genuinamente preso ou a mudança é ampla (depuração difícil, refatorações amplas, decisões arquitetônicas); Haiku para trabalho mecânico rápido (renomeações, linhas de log, explicações de regex, boilerplate).
3. Aponte para arquivos em vez de colá-los
Qualquer coisa que você cola fica em contexto, na íntegra, pelo resto da sessão. Referenciar um arquivo por caminho permite que Claude leia seletivamente e se concentre na parte que você se importa. Na prática: em vez de colar auth.ts, escreva look at the validateToken function in @src/auth.ts. Para logs e stack traces, reduza para as 20 ou 30 linhas relevantes antes de colar. Para qualquer coisa grande (lockfiles, logs de compilação, dumps de dados), coloque-a no disco e referencie o caminho.
4. Mantenha CLAUDE.md enxuto
Este arquivo é adicionado no início de cada turno, então seu custo é multiplicado pelo número de mensagens que você envia. Um CLAUDE.md de 300 linhas em uma sessão de 40 turnos é 12.000 linhas de entrada que você pagou antes de fazer qualquer trabalho. A regra: dois strikes, uma tela. Adicione uma nota apenas na segunda vez que você tiver que corrigir Claude na mesma coisa (problemas de primeira vez geralmente são únicos). E nunca deixe o arquivo crescer além de uma única tela de aproximadamente 80 a 100 linhas; se algo novo precisa entrar e não há espaço, algo antigo tem que sair. Quando atualizar: logo após uma sessão em que você teve que corrigir Claude duas vezes na mesma coisa. É quando a correção é fresca e leva um minuto para anotar. A cada poucas semanas, leia o arquivo inteiro e delete qualquer coisa que não seja mais verdadeira ou cujo propósito você não consiga lembrar. Notas obsoletas são piores do que notas ausentes porque desviam ativamente Claude.
5. Peça um plano antes de grandes mudanças
Um plano custa algumas centenas de tokens. Um diff errado de 400 linhas que você reverte e regenera custa milhares, duas vezes, mais os turnos gastos explicando o que deu errado. Na prática: para qualquer coisa que toque mais de dois ou três arquivos, mude para o Modo de Plano ou apenas pergunte: "Antes de mudar qualquer coisa, liste os arquivos que você tocará e o que fará em cada um." Leia a lista, corrija-a em inglês simples ("pule legacy/ e não toque nos testes ainda"), então deixe executar.
Dica profissional: planeje com Opus, execute com Sonnet. O uso de maior valor do Opus é escrever o próprio plano, onde o raciocínio mais profundo realmente compensa. Uma vez que um bom plano existe, a execução é principalmente mecânica e Sonnet a manipula por uma fração do custo. Fluxo de trabalho: /model opus, peça o plano, revise e corrija-o, depois /model sonnet e "execute o plano acima." Alternar modelos não limpa a conversa, então Sonnet ainda vê tudo que Opus produziu.
O que fazer quando você atinge um limite
Usuários de assento Enterprise: a mensagem informa quando sua janela redefine. Enquanto isso, você pode mudar para um modelo mais leve com
/model, ou, se sua organização permitir, voltar temporariamente para uma chave de API.Usuários de chave de API: não há limite de uso, mas verifique
/coste seu painel do Console ou provedor de nuvem se o gasto for uma preocupação. Números inesperadamente altos quase sempre rastreiam de volta para sessões muito longas que nunca foram limpas.Janela de contexto cheia (que é diferente de um limite de uso): execute
/compactpara continuar, ou/clearse o histórico mais antigo não for mais necessário.
Referência rápida
Comando | O que faz |
| Veja e alterne modelos disponíveis. |
| Mostrar o uso de token e dólar desta sessão (faturamento de API). |
| Inicie uma conversa nova (memória do projeto permanece). |
| Resuma o histórico para liberar contexto. |
| Inspecione o que está carregado no contexto. |
