Esta guía explica qué modelo estás usando, cómo se mide el uso y cómo mantener sesiones largas dentro de sus límites de contexto y uso.
Cómo se mide el uso
La forma en que iniciaste sesión determina cómo se mide el uso. Todo lo demás sobre Claude Code funciona de la misma manera independientemente.
Iniciaste sesión con… | Obtienes | Cómo se ve "agotarse" |
Asiento de Claude Enterprise (vía | Un grupo de uso incluido en el plan de tu organización, reiniciado en una ventana móvil. | Un mensaje "límite alcanzado, se reinicia a las hora". |
Clave de API (Consola, Bedrock o Vertex) | Pago por uso, facturado por token a esa cuenta de nube o Consola. | Sin parada fija; la cuenta se cobra por lo que usa. |
Si iniciaste sesión con un asiento Enterprise, generalmente no necesitas pensar en tokens hasta que alcances un límite. Si estás usando una clave de API, el comando /cost muestra tu gasto actual para la sesión actual.
Elegir un modelo
Ejecuta /model en cualquier momento para ver qué modelos están disponibles para tu cuenta y para cambiar entre ellos. Como guía aproximada:
Sonnet es el predeterminado y es la opción correcta para la gran mayoría del trabajo de codificación. Es rápido, capaz y rentable.
Opus ofrece un razonamiento más profundo para problemas más difíciles, como refactorizaciones amplias, depuración difícil o decisiones arquitectónicas. Usa significativamente más de tu cuota, así que cambia a él cuando lo necesites en lugar de dejarlo activado de forma predeterminada.
Haiku es la opción más rápida y económica, bien adaptada para búsquedas rápidas, ediciones simples o ejecuciones de scripts de alto volumen.
Puedes cambiar modelos a mitad de sesión sin perder tu conversación. Un patrón común es planificar con Opus y ejecutar con Sonnet.
Nota: Los nombres exactos de los modelos, versiones y disponibilidad cambian con el tiempo. El comando /model siempre es la fuente de verdad para tu cuenta.
Qué consume realmente tokens
Cada turno envía tres cosas al modelo:
La conversación hasta ahora — cada mensaje anterior en esta sesión.
Contexto del proyecto — tu
CLAUDE.mdy cualquier archivo que Claude haya leído.Tu nuevo mensaje.
De estos, el primer elemento crece más rápido. Una sesión de depuración larga en la que Claude ha leído veinte archivos y producido quince diffs lleva todo eso en cada mensaje posterior. Aquí es donde se originan tanto el costo como los límites de contexto.
Gestionar la ventana de contexto
La ventana de contexto es la cantidad máxima de texto que el modelo puede considerar a la vez. Claude Code muestra un indicador en vivo de qué tan llena está. Cuando se llena, Claude ya no puede ver claramente las partes más antiguas de la conversación y la calidad disminuye.
Dos comandos la mantienen bajo control:
/clearborra la conversación y comienza de nuevo. TuCLAUDE.mdy los archivos del proyecto permanecen disponibles; solo se elimina el historial de chat. Úsalo siempre que cambies de tarea, ya que es la palanca más efectiva tanto para la calidad como para el costo./compactresume la conversación hasta ahora en un resumen breve, liberando espacio mientras se preserva el contexto esencial. Úsalo cuando estés en medio de una tarea y necesites continuar. Claude Code también se compacta automáticamente cuando te acercas al límite, así que raramente llegarás a una pared dura.
Regla de oro: usa /clear cuando comiences una nueva tarea, y /compact cuando continúes una larga.
Cinco hábitos que estiran tu uso al máximo
Casi todos los reportes de "quemé mi límite antes del almuerzo" se remontan a uno de estos cinco.
1. Limpiar entre tareas
Cada mensaje anterior se reenvía en cada turno, así que una sesión que ha vagado por tres problemas no relacionados paga por los tres en cada nuevo mensaje. En la práctica: acabas de terminar de depurar un redireccionamiento de inicio de sesión y ahora quieres escribir una migración de base de datos. Ejecuta /clear primero. Una prueba simple: si tu siguiente mensaje tendría sentido perfecto en una terminal completamente nueva, limpia antes de enviarlo. Tu CLAUDE.md y los archivos del proyecto se quedan; solo el historial de chat se va. Una advertencia: /clear no se puede deshacer. Si aún podrías necesitar algo del historial, cópialo primero o ejecuta /compact en su lugar, que preserva un resumen en lugar de borrar todo.
2. Adaptar el modelo al trabajo
Opus cuesta varias veces más por turno que Sonnet, y Sonnet más que Haiku. Gastar Opus en trabajo rutinario es la forma más rápida de agotar un límite diario. Valores predeterminados razonables: Sonnet para la mayoría de la codificación (características, pruebas, errores conocidos, refactorizaciones); Opus cuando realmente estés atrapado o el cambio es amplio (depuración difícil, refactorizaciones amplias, decisiones arquitectónicas); Haiku para trabajo mecánico rápido (cambios de nombre, líneas de registro, explicaciones de expresiones regulares, código repetitivo).
3. Apuntar a archivos en lugar de pegarlos
Cualquier cosa que pegues se queda en contexto, en su totalidad, por el resto de la sesión. Hacer referencia a un archivo por ruta permite que Claude lea selectivamente y se enfoque en la parte que te importa. En la práctica: en lugar de pegar auth.ts, escribe mira la función validateToken en @src/auth.ts. Para registros y seguimientos de pila, recorta a las 20 o 30 líneas relevantes antes de pegar. Para cualquier cosa grande (archivos de bloqueo, registros de compilación, volcados de datos), ponlo en disco y haz referencia a la ruta.
4. Mantener CLAUDE.md ligero
Este archivo se antepone a cada turno, por lo que su costo se multiplica por el número de mensajes que envías. Un CLAUDE.md de 300 líneas en una sesión de 40 turnos son 12,000 líneas de entrada que pagaste antes de hacer ningún trabajo. La regla: dos strikes, una pantalla. Solo agrega una nota la segunda vez que tengas que corregir a Claude en la misma cosa (los problemas de primera vez suelen ser únicos). Y nunca dejes que el archivo crezca más allá de una sola pantalla de aproximadamente 80 a 100 líneas; si algo nuevo necesita entrar y no hay espacio, algo viejo tiene que salir. Cuándo actualizarlo: justo después de una sesión donde tuviste que corregir a Claude dos veces en la misma cosa. Ese es el momento en que la solución es fresca y toma un minuto escribirla. Cada pocas semanas, lee el archivo completo y elimina cualquier cosa que ya no sea verdadera o cuyo propósito no puedas recordar. Las notas obsoletas son peores que las notas faltantes porque desvían activamente a Claude.
5. Pedir un plan antes de cambios grandes
Un plan cuesta unos pocos cientos de tokens. Un diff incorrecto de 400 líneas que revierts y regeneras cuesta miles, dos veces, más los turnos gastados explicando qué salió mal. En la práctica: para cualquier cosa que toque más de dos o tres archivos, cambia a Plan Mode o simplemente pregunta: "Antes de cambiar nada, enumera los archivos que tocarás y qué harás en cada uno." Lee la lista, corrígela en inglés simple ("salta legacy/, y no toques las pruebas todavía"), luego déjalo ejecutar.
Consejo profesional: planifica con Opus, ejecuta con Sonnet. El uso de mayor valor de Opus es escribir el plan en sí, donde el razonamiento más profundo realmente vale la pena. Una vez que existe un buen plan, la ejecución es principalmente mecánica y Sonnet la maneja a una fracción del costo. Flujo de trabajo: /model opus, pide el plan, revísalo y corrígelo, luego /model sonnet y "ejecuta el plan anterior." Cambiar modelos no borra la conversación, así que Sonnet aún ve todo lo que Opus produjo.
Qué hacer cuando alcanzas un límite
Usuarios de asiento Enterprise: el mensaje te dice cuándo se reinicia tu ventana. Mientras tanto, puedes cambiar a un modelo más ligero con
/model, o, si tu organización lo permite, volver temporalmente a una clave de API.Usuarios de clave de API: no hay límite de uso, pero verifica
/costy tu panel de Consola o proveedor de nube si el gasto es una preocupación. Los números inesperadamente altos casi siempre se remontan a sesiones muy largas que nunca se limpiaron.Ventana de contexto llena (que es diferente de un límite de uso): ejecuta
/compactpara continuar, o/clearsi el historial más antiguo ya no es necesario.
Referencia rápida
Comando | Qué hace |
| Ver y cambiar modelos disponibles. |
| Mostrar el uso de tokens y dólares de esta sesión (facturación de API). |
| Comenzar una conversación nueva (la memoria del proyecto permanece). |
| Resumir el historial para liberar contexto. |
| Inspeccionar qué está actualmente cargado en el contexto. |
