Modelos, uso y límites en Claude Code | Centro de ayuda de Anthropic

Esta guía explica qué modelo estás usando, cómo se mide el uso y cómo mantener sesiones largas dentro de sus límites de contexto y uso.

Cómo se mide el uso

La forma en que iniciaste sesión determina cómo se mide el uso. Todo lo demás sobre Claude Code funciona de la misma manera independientemente.

Iniciaste sesión con…	Obtienes	Cómo se ve "agotarse"
Asiento de Claude Enterprise (vía `/login`)	Un conjunto de uso incluido en el plan de tu organización, reiniciado en una ventana móvil.	Un mensaje "límite alcanzado, se reinicia a las hora".
Clave de API (Consola, Bedrock, Vertex o Microsoft Foundry)	Pago por uso, facturado por token a esa cuenta de nube o Consola.	Sin parada fija; la cuenta se cobra por lo que usa.

Si iniciaste sesión con un asiento Enterprise, generalmente no necesitas pensar en tokens hasta que alcances un límite. Si estás usando una clave de API, el comando /cost muestra tu gasto actual para la sesión actual.

Elegir un modelo

Ejecuta /model en cualquier momento para ver qué modelos están disponibles para tu cuenta y para cambiar entre ellos. Como guía aproximada:

Sonnet es el predeterminado y es la opción correcta para la gran mayoría del trabajo de codificación. Es rápido, capaz y rentable.
Opus ofrece un razonamiento más profundo para problemas más difíciles como refactorizaciones amplias, depuración difícil o decisiones arquitectónicas. Usa significativamente más de tu cuota, así que cambia a él cuando lo necesites en lugar de dejarlo activado de forma predeterminada.
Haiku es la opción más rápida y económica, bien adaptada para búsquedas rápidas, ediciones simples o ejecuciones de scripts de alto volumen.

Puedes cambiar modelos a mitad de sesión sin perder tu conversación. Un patrón común es planificar con Opus y ejecutar con Sonnet.

Nota: Los nombres exactos de los modelos, versiones y disponibilidad cambian con el tiempo. El comando /model siempre es la fuente de verdad para tu cuenta.

Qué consume realmente tokens

Cada turno envía tres cosas al modelo:

La conversación hasta ahora — cada mensaje anterior en esta sesión.
Contexto del proyecto — tu CLAUDE.md y cualquier archivo que Claude haya leído.
Tu nuevo mensaje.

De estos, el primer elemento crece más rápido. Una sesión de depuración larga en la que Claude ha leído veinte archivos y producido quince diffs está llevando todo eso en cada mensaje posterior. Aquí es donde se originan tanto el costo como los límites de contexto.

Gestionar la ventana de contexto

La ventana de contexto es la cantidad máxima de texto que el modelo puede considerar a la vez. Claude Code muestra un indicador en vivo de qué tan llena está. Cuando se llena, Claude ya no puede ver claramente las partes más antiguas de la conversación y la calidad disminuye.

Dos comandos la mantienen bajo control:

/clear borra la conversación y comienza de nuevo. Tu CLAUDE.md y los archivos del proyecto permanecen disponibles; solo se elimina el historial de chat. Usa esto siempre que cambies de tarea, ya que es la palanca más efectiva tanto para la calidad como para el costo.
/compact resume la conversación hasta ahora en un resumen breve, liberando espacio mientras se preserva el contexto esencial. Usa esto cuando estés en medio de una tarea y necesites continuar. Claude Code también se compacta automáticamente cuando te acercas al límite, así que rara vez alcanzarás una pared dura.

Regla general: usa /clear cuando comiences una nueva tarea, y /compact cuando continúes una larga.

Cinco hábitos que estiran tu uso lo máximo posible

Casi todos los reportes de "agotémi límite antes del almuerzo" se remontan a uno de estos cinco.

1. Limpiar entre tareas

Cada mensaje anterior se reenvía en cada turno, así que una sesión que ha vagado por tres problemas no relacionados paga por los tres en cada nuevo mensaje.

En la práctica: acabas de terminar de depurar un redireccionamiento de inicio de sesión y ahora quieres escribir una migración de base de datos. Ejecuta /clear primero. Una prueba simple: si tu siguiente mensaje tendría sentido perfecto en una terminal completamente nueva, limpia antes de enviarlo. Tu CLAUDE.md y los archivos del proyecto se quedan; solo el historial de chat se va.

Una advertencia: /clear no se puede deshacer. Si aún podrías necesitar algo del historial, cópialo primero o ejecuta /compact en su lugar, que preserva un resumen en lugar de borrar todo.

2. Adaptar el modelo al trabajo

Opus cuesta varias veces más por turno que Sonnet, y Sonnet más que Haiku. Gastar Opus en trabajo rutinario es la forma más rápida de agotar un límite diario.

Valores predeterminados razonables: Sonnet para la mayoría de la codificación (características, pruebas, errores conocidos, refactorizaciones); Opus cuando realmente estés atrapado o el cambio es amplio (depuración difícil, refactorizaciones amplias, decisiones arquitectónicas); Haiku para trabajo mecánico rápido (cambios de nombre, líneas de registro, explicaciones de expresiones regulares, código repetitivo).

3. Apuntar a archivos en lugar de pegarlos

Cualquier cosa que pegues se queda en contexto, en su totalidad, por el resto de la sesión. Hacer referencia a un archivo por ruta permite que Claude lea selectivamente y se enfoque en la parte que te importa.

En la práctica: en lugar de pegar auth.ts, escribe mira la función validateToken en src/auth.ts — mencionar la ruta permite que Claude abra y lea selectivamente. (Ten en cuenta que el prefijo @ inyecta el archivo completo más su árbol CLAUDE.md en contexto, así que usa una ruta simple cuando estés intentando ahorrar tokens.) Para registros y seguimientos de pila, recorta a las 20 o 30 líneas relevantes antes de pegar. Para cualquier cosa grande (archivos de bloqueo, registros de compilación, volcados de datos), colócalo en disco y haz referencia a la ruta.

4. Mantener CLAUDE.md ágil

Este archivo se antepone a cada turno. El almacenamiento en caché de mensajes significa que los turnos después del primero se facturan a la tarifa de lectura de caché mucho más barata, así que el costo en dólares es menor que lo que sugiere el recuento de líneas sin procesar, pero aún ocupa espacio de ventana de contexto en cada mensaje.

La regla: dos strikes, mantenlo ajustado. Solo agrega una nota la segunda vez que tengas que corregir a Claude en la misma cosa (los problemas de primera vez suelen ser únicos). Mantén el archivo bajo aproximadamente 200 líneas; si algo nuevo necesita entrar y no hay espacio, algo viejo tiene que salir.

Cuándo actualizarlo: justo después de una sesión donde tuviste que corregir a Claude dos veces en la misma cosa. Ese es el momento en que la solución es fresca y toma un minuto escribirla. Cada pocas semanas, lee el archivo completo y elimina cualquier cosa que ya no sea verdadera o cuyo propósito no puedas recordar. Las notas obsoletas son peores que las notas faltantes porque desvían activamente a Claude.

5. Pedir un plan antes de cambios grandes

Un plan cuesta algunos cientos de tokens. Un diff incorrecto de 400 líneas que revierts y regeneras cuesta miles, dos veces, más los turnos gastados explicando qué salió mal. En la práctica: para cualquier cosa que toque más de dos o tres archivos, cambia a Plan Mode o simplemente pregunta: "Antes de cambiar nada, enumera los archivos que tocarás y qué harás en cada uno." Lee la lista, corrígela en inglés simple ("salta legacy/, y no toques las pruebas aún"), luego déjalo ejecutar.

Consejo profesional: planifica con Opus, ejecuta con Sonnet. El uso de mayor valor de Opus es escribir el plan en sí, donde el razonamiento más profundo realmente vale la pena. Una vez que existe un buen plan, la ejecución es principalmente mecánica y Sonnet la maneja a una fracción del costo. Este patrón está integrado como /model opusplan, que usa Opus mientras planifica y Sonnet para la ejecución. Cambiar modelos no borra la conversación, así que Sonnet aún ve todo lo que Opus produjo.

Qué hacer cuando alcances un límite

Usuarios de asiento Enterprise: el mensaje te dice cuándo se reinicia tu ventana. Mientras tanto, puedes cambiar a un modelo más ligero con /model, o, si tu organización lo permite, volver temporalmente a una clave de API.
Usuarios de clave de API: no hay límite de uso, pero verifica /cost y tu panel de Consola o proveedor de nube si el gasto es una preocupación. Los números inesperadamente altos casi siempre se remontan a sesiones muy largas que nunca se limpiaron.
Ventana de contexto llena (que es diferente de un límite de uso): ejecuta /compact para continuar, o /clear si el historial más antiguo ya no es necesario.

Referencia rápida

Comando	Qué hace
`/model`	Ver y cambiar modelos disponibles.
`/cost`	Mostrar el uso de tokens y dólares de esta sesión (facturación de API).
`/clear`	Comenzar una conversación nueva (la memoria del proyecto permanece).
`/compact`	Resumir el historial para liberar contexto.
`/context`	Inspeccionar qué se carga actualmente en el contexto.