Modelli, utilizzo e limiti in Claude Code

Questa guida spiega quale modello stai utilizzando, come viene misurato l'utilizzo e come mantenere le sessioni lunghe entro i loro limiti di contesto e utilizzo.

Come viene misurato l'utilizzo

Il modo in cui hai effettuato l'accesso determina come viene misurato l'utilizzo. Tutto il resto di Claude Code si comporta allo stesso modo indipendentemente.

Hai effettuato l'accesso con…	Ottieni	Come appare "esaurimento"
Posto Claude Enterprise (tramite `/login`)	Un pool di utilizzo incluso nel piano della tua organizzazione, ripristinato su una finestra mobile.	Un messaggio "limite raggiunto, si ripristina alle ora".
Chiave API (Console, Bedrock, Vertex o Microsoft Foundry)	Pay-as-you-go, fatturato per token su quell'account cloud o Console.	Nessun arresto forzato; l'account viene addebitato per quello che utilizza.

Se hai effettuato l'accesso con un posto Enterprise, generalmente non devi pensare ai token finché non raggiungi un limite. Se stai utilizzando una chiave API, il comando /cost mostra la tua spesa corrente per la sessione attuale.

Scelta di un modello

Esegui /model in qualsiasi momento per vedere quali modelli sono disponibili per il tuo account e per passare da uno all'altro. Come guida approssimativa:

Sonnet è l'impostazione predefinita ed è la scelta giusta per la stragrande maggioranza del lavoro di codifica. È veloce, capace ed efficiente dal punto di vista dei costi.
Opus offre un ragionamento più profondo per problemi più difficili come refactoring su larga scala, debug difficile o decisioni architettoniche. Utilizza significativamente più della tua quota, quindi passa a esso quando ne hai bisogno piuttosto che lasciarlo attivo per impostazione predefinita.
Haiku è l'opzione più veloce e economica, ben adatta a ricerche rapide, modifiche semplici o esecuzioni di script ad alto volume.

Puoi cambiare modelli a metà sessione senza perdere la tua conversazione. Un modello comune è pianificare con Opus ed eseguire con Sonnet.

Nota: I nomi esatti dei modelli, le versioni e la disponibilità cambiano nel tempo. Il comando /model è sempre la fonte di verità per il tuo account.

Cosa consuma effettivamente i token

Ogni turno invia tre cose al modello:

La conversazione finora — ogni messaggio precedente in questa sessione.
Contesto del progetto — il tuo CLAUDE.md e tutti i file che Claude ha letto.
Il tuo nuovo prompt.

Di questi, il primo elemento cresce più velocemente. Una lunga sessione di debug in cui Claude ha letto venti file e prodotto quindici diff sta portando tutto questo su ogni messaggio successivo. Qui è dove hanno origine sia i costi che i limiti di contesto.

Gestione della finestra di contesto

La finestra di contesto è la quantità massima di testo che il modello può considerare contemporaneamente. Claude Code mostra un indicatore live di quanto è piena. Quando si riempie, Claude non riesce più a vedere chiaramente le parti più vecchie della conversazione e la qualità diminuisce.

Due comandi la mantengono sotto controllo:

/clear cancella la conversazione e ricomincia da capo. Il tuo CLAUDE.md e i file del progetto rimangono disponibili; solo la cronologia della chat viene rimossa. Usalo ogni volta che cambi attività, poiché è la leva singola più efficace sia per la qualità che per il costo.
/compact riassume la conversazione finora in un breve riepilogo, liberando spazio mentre preserva il contesto essenziale. Usalo quando sei a metà attività e hai bisogno di continuare. Claude Code si compatta anche automaticamente quando ti avvicini al limite, quindi raramente colpirai un muro duro.

Regola pratica: usa /clear quando inizi una nuova attività e /compact quando continui una lunga.

Cinque abitudini che estendono il tuo utilizzo il più lontano possibile

Quasi ogni rapporto "Ho esaurito il mio limite a metà mattina" risale a uno di questi cinque.

1. Cancella tra le attività

Ogni messaggio precedente viene reinviato ad ogni turno, quindi una sessione che ha vagato attraverso tre problemi non correlati paga per tutti e tre ad ogni nuovo messaggio.

In pratica: hai appena finito di eseguire il debug di un reindirizzamento di accesso e ora vuoi scrivere una migrazione del database. Esegui /clear prima. Un semplice test: se il tuo prossimo prompt avrebbe perfettamente senso in un terminale completamente nuovo, cancella prima di inviarlo. Il tuo CLAUDE.md e i file del progetto rimangono; solo la cronologia della chat se ne va.

Un avvertimento: /clear non può essere annullato. Se potresti ancora aver bisogno di qualcosa dalla cronologia, copialo prima o esegui /compact invece, che preserva un riepilogo piuttosto che cancellare tutto.

2. Abbina il modello al lavoro

Opus costa diversi volte di più per turno rispetto a Sonnet, e Sonnet più di Haiku. Spendere Opus su lavoro di routine è il modo più veloce per esaurire un limite giornaliero.

Impostazioni predefinite ragionevoli: Sonnet per la maggior parte della codifica (funzionalità, test, bug noti, refactoring); Opus quando sei veramente bloccato o il cambiamento è ampio (debug difficile, refactoring su larga scala, decisioni architettoniche); Haiku per lavoro meccanico veloce (rinominazioni, righe di log, spiegazioni regex, boilerplate).

3. Punta ai file invece di incollarli

Tutto ciò che incolla rimane nel contesto, per intero, per il resto della sessione. Fare riferimento a un file per percorso consente a Claude di leggere selettivamente e concentrarsi sulla parte che ti interessa.

In pratica: invece di incollare auth.ts, scrivi guarda la funzione validateToken in src/auth.ts — menzionare il percorso consente a Claude di aprire e leggere selettivamente. (Nota che il prefisso @ inietta l'intero file più il suo albero CLAUDE.md nel contesto, quindi usa un percorso nudo quando stai cercando di risparmiare token.) Per log e stack trace, taglia alle righe rilevanti 20 o 30 prima di incollare. Per qualsiasi cosa grande (lockfile, log di compilazione, dump di dati), mettila su disco e fai riferimento al percorso.

4. Mantieni CLAUDE.md snello

Questo file viene anteposto a ogni turno. La memorizzazione nella cache dei prompt significa che i turni dopo il primo vengono fatturati alla tariffa di lettura della cache molto più economica, quindi il costo in dollari è inferiore al conteggio delle righe grezze suggerisce, ma occupa comunque spazio nella finestra di contesto ad ogni messaggio.

La regola: due strike, mantienilo stretto. Aggiungi una nota solo la seconda volta che devi correggere Claude sulla stessa cosa (i problemi della prima volta sono solitamente isolati). Mantieni il file sotto circa 200 righe; se qualcosa di nuovo deve entrare e non c'è spazio, qualcosa di vecchio deve uscire.

Quando aggiornarlo: subito dopo una sessione in cui hai dovuto correggere Claude due volte sulla stessa cosa. È quando la correzione è fresca e richiede un minuto per scrivere. Ogni poche settimane, leggi l'intero file ed elimina tutto ciò che non è più vero o il cui scopo non ricordi. Le note stantie sono peggio delle note mancanti perché indirizzano attivamente Claude in modo errato.

5. Chiedi un piano prima di grandi cambiamenti

Un piano costa poche centinaia di token. Un diff sbagliato di 400 righe che ripristini e rigeneri costa migliaia, due volte, più i turni spesi a spiegare cosa è andato storto. In pratica: per qualsiasi cosa che tocchi più di due o tre file, passa alla modalità Piano o semplicemente chiedi: "Prima di cambiare qualcosa, elenca i file che toccherai e cosa farai in ciascuno." Leggi l'elenco, correggilo in inglese semplice ("salta legacy/, e non toccare ancora i test"), quindi lascialo eseguire.

Suggerimento professionale: pianifica con Opus, esegui con Sonnet. L'uso di valore più elevato di Opus è scrivere il piano stesso, dove il ragionamento più profondo effettivamente ripaga. Una volta che esiste un buon piano, l'esecuzione è principalmente meccanica e Sonnet la gestisce a una frazione del costo. Questo modello è integrato come /model opusplan, che utilizza Opus durante la pianificazione e Sonnet per l'esecuzione. Il cambio di modelli non cancella la conversazione, quindi Sonnet vede ancora tutto ciò che Opus ha prodotto.

Cosa fare quando raggiungi un limite

Utenti con posto Enterprise: il messaggio ti dice quando la tua finestra si ripristina. Nel frattempo puoi passare a un modello più leggero con /model, o, se la tua organizzazione lo consente, tornare temporaneamente a una chiave API.
Utenti con chiave API: non c'è un limite di utilizzo, ma controlla /cost e il tuo dashboard Console o provider cloud se la spesa è una preoccupazione. I numeri inaspettatamente alti quasi sempre risalgono a sessioni molto lunghe che non sono mai state cancellate.
Finestra di contesto piena (che è diversa da un limite di utilizzo): esegui /compact per continuare, o /clear se la cronologia più vecchia non è più necessaria.

Riferimento rapido

Comando	Cosa fa
`/model`	Vedi e cambia i modelli disponibili.
`/cost`	Mostra l'utilizzo di token e dollari di questa sessione (fatturazione API).
`/clear`	Inizia una conversazione fresca (la memoria del progetto rimane).
`/compact`	Riassumi la cronologia per liberare il contesto.
`/context`	Ispeziona cosa è attualmente caricato nel contesto.