Zum Hauptinhalt springen

Modelle, Nutzung und Limits in Claude Code

Diese Anleitung erklärt, welches Modell Sie verwenden, wie die Nutzung gemessen wird, und wie Sie lange Sitzungen innerhalb ihrer Kontext- und Nutzungslimits halten.


Wie die Nutzung gemessen wird

Wie Sie sich anmelden, bestimmt, wie die Nutzung gemessen wird. Alles andere in Claude Code funktioniert unabhängig davon gleich.

Sie haben sich angemeldet mit…

Sie erhalten

So sieht es aus, wenn Sie „das Limit erreichen""

Claude Enterprise-Sitz (über /login)

Ein Nutzungspool, der in Ihrem Organisationsplan enthalten ist und in einem rollierenden Fenster zurückgesetzt wird.

Eine Meldung „Limit erreicht, wird zurückgesetzt um Zeit"."

API-Schlüssel (Console, Bedrock, Vertex oder Microsoft Foundry)

Pay-as-you-go, abgerechnet pro Token auf dieses Cloud- oder Console-Konto.

Kein harter Stopp; das Konto wird für das belastet, was es nutzt.

Wenn Sie sich mit einem Enterprise-Sitz angemeldet haben, müssen Sie normalerweise nicht über Token nachdenken, bis Sie ein Limit erreichen. Wenn Sie einen API-Schlüssel verwenden, zeigt der Befehl /cost Ihre laufenden Ausgaben für die aktuelle Sitzung.


Ein Modell auswählen

Führen Sie /model jederzeit aus, um zu sehen, welche Modelle für Ihr Konto verfügbar sind, und um zwischen ihnen zu wechseln. Als grobe Richtlinie:

  • Sonnet ist die Standardeinstellung und die richtige Wahl für die große Mehrheit der Codierungsarbeiten. Es ist schnell, leistungsfähig und kostengünstig.

  • Opus bietet tiefere Überlegungen für schwierigere Probleme wie große übergreifende Umgestaltungen, schwieriges Debugging oder architektonische Entscheidungen. Es verbraucht deutlich mehr Ihres Kontingents, daher wechseln Sie zu ihm, wenn Sie ihn benötigen, anstatt ihn standardmäßig aktiviert zu lassen.

  • Haiku ist die schnellste und günstigste Option, gut geeignet für schnelle Nachschlagungen, einfache Bearbeitungen oder Skriptläufe mit hohem Volumen.

Sie können Modelle während einer Sitzung wechseln, ohne Ihr Gespräch zu verlieren. Ein häufiges Muster ist die Planung mit Opus und die Ausführung mit Sonnet.

Hinweis: Genaue Modellnamen, Versionen und Verfügbarkeit ändern sich im Laufe der Zeit. Der Befehl /model ist immer die Quelle der Wahrheit für Ihr Konto.


Was tatsächlich Token verbraucht

Jeder Zug sendet drei Dinge an das Modell:

  1. Das bisherige Gespräch — jede vorherige Nachricht in dieser Sitzung.

  2. Projektkontext — Ihre CLAUDE.md und alle Dateien, die Claude gelesen hat.

  3. Ihre neue Eingabeaufforderung.

Von diesen wächst das erste Element am schnellsten. Eine lange Debugging-Sitzung, in der Claude zwanzig Dateien gelesen und fünfzehn Diffs erstellt hat, trägt all das bei jeder nachfolgenden Nachricht mit sich. Hier stammen sowohl Kosten als auch Kontextlimits her.


Verwalten des Kontextfensters

Das Kontextfenster ist die maximale Textmenge, die das Modell auf einmal berücksichtigen kann. Claude Code zeigt einen Live-Indikator, wie voll es ist. Wenn es sich füllt, kann Claude die ältesten Teile des Gesprächs nicht mehr klar sehen und die Qualität sinkt.

Zwei Befehle halten es unter Kontrolle:

  • /clear löscht das Gespräch und startet neu. Ihre CLAUDE.md und Projektdateien bleiben verfügbar; nur der Chat-Verlauf wird entfernt. Verwenden Sie dies, wenn Sie die Aufgabe wechseln, da es der einzelne wirksamste Hebel für Qualität und Kosten ist.

  • /compact fasst das bisherige Gespräch in eine kurze Zusammenfassung zusammen und gibt Platz frei, während der wesentliche Kontext erhalten bleibt. Verwenden Sie dies, wenn Sie mitten in einer Aufgabe sind und weitermachen müssen. Claude Code komprimiert auch automatisch, wenn Sie sich dem Limit nähern, daher werden Sie selten auf eine harte Grenze stoßen.

Faustregel: Verwenden Sie /clear, wenn Sie eine neue Aufgabe starten, und /compact, wenn Sie eine lange fortsetzen.


Fünf Gewohnheiten, die Ihre Nutzung am weitesten dehnen

Fast jeder Bericht „Ich habe mein Limit bis zum Mittag aufgebraucht" lässt sich auf eine dieser fünf zurückführen."

1. Zwischen Aufgaben löschen

Jede vorherige Nachricht wird bei jedem Zug erneut gesendet, daher zahlt eine Sitzung, die durch drei unabhängige Probleme gewandert ist, für alle drei bei jeder neuen Nachricht.

In der Praxis: Sie haben gerade das Debugging einer Login-Umleitung abgeschlossen und möchten jetzt eine Datenbankmigrationen schreiben. Führen Sie zuerst /clear aus. Ein einfacher Test: Wenn Ihre nächste Eingabeaufforderung in einem brandneuen Terminal perfekt Sinn machen würde, löschen Sie vor dem Senden. Ihre CLAUDE.md und Projektdateien bleiben erhalten; nur der Chat-Verlauf wird gelöscht.

Eine Warnung: /clear kann nicht rückgängig gemacht werden. Wenn Sie möglicherweise noch etwas aus dem Verlauf benötigen, kopieren Sie es zuerst aus oder führen Sie stattdessen /compact aus, das eine Zusammenfassung beibehält, anstatt alles zu löschen.

2. Passen Sie das Modell an die Aufgabe an

Opus kostet pro Zug mehrmals mehr als Sonnet, und Sonnet mehr als Haiku. Die Verwendung von Opus für Routinearbeiten ist der schnellste Weg, ein tägliches Limit zu erschöpfen.

Angemessene Standardeinstellungen: Sonnet für die meisten Codierungen (Features, Tests, bekannte Fehler, Umgestaltungen); Opus, wenn Sie wirklich stecken bleiben oder die Änderung umfangreich ist (schwieriges Debugging, übergreifende Umgestaltungen, Architekturentscheidungen); Haiku für schnelle mechanische Arbeiten (Umbenennungen, Protokollzeilen, Regex-Erklärungen, Boilerplate).

3. Verweisen Sie auf Dateien, anstatt sie einzufügen

Alles, was Sie einfügen, bleibt für den Rest der Sitzung im Kontext, vollständig. Das Referenzieren einer Datei nach Pfad ermöglicht es Claude, selektiv zu lesen und sich auf den Teil zu konzentrieren, der Sie interessiert.

In der Praxis: Anstatt auth.ts einzufügen, schreiben Sie „Schauen Sie sich die Funktion validateToken in src/auth.ts an

4. Halten Sie CLAUDE.md schlank

Diese Datei wird jedem Zug vorangestellt. Prompt-Caching bedeutet, dass Züge nach dem ersten mit der viel günstigeren Cache-Read-Rate abgerechnet werden, daher sind die Dollarkosten niedriger als die rohe Zeilenanzahl vermuten lässt, aber sie nimmt immer noch Kontextfensterplatz bei jeder Nachricht ein.

Die Regel: zwei Streiche, halten Sie es straff. Fügen Sie eine Notiz nur beim zweiten Mal hinzu, wenn Sie Claude auf dasselbe korrigieren müssen (Probleme beim ersten Mal sind normalerweise Einzelfälle). Halten Sie die Datei unter ungefähr 200 Zeilen; wenn etwas Neues hinzugefügt werden muss und es gibt keinen Platz, muss etwas Altes raus.

Wann sollte es aktualisiert werden: direkt nach einer Sitzung, in der Sie Claude zweimal auf dasselbe korrigieren mussten. Das ist, wenn die Korrektur frisch ist und eine Minute zum Aufschreiben dauert. Lesen Sie alle paar Wochen die ganze Datei durch und löschen Sie alles, das nicht mehr wahr ist oder dessen Zweck Sie nicht mehr erinnern. Veraltete Notizen sind schlimmer als fehlende Notizen, weil sie Claude aktiv in die Irre führen.

5. Fragen Sie nach einem Plan vor großen Änderungen

Ein Plan kostet ein paar hundert Token. Ein falscher 400-Zeilen-Diff, den Sie rückgängig machen und neu generieren, kostet Tausende, zweimal, plus die Züge, die damit verbracht werden, zu erklären, was schief gelaufen ist. In der Praxis: Für alles, das mehr als zwei oder drei Dateien berührt, wechseln Sie zu Plan Mode oder fragen Sie einfach: „Bevor Sie etwas ändern, listen Sie die Dateien auf, die Sie berühren werden, und was Sie in jeder tun werden.

Profi-Tipp: Planen Sie mit Opus, führen Sie mit Sonnet aus. Der höchste Wert der Verwendung von Opus ist das Schreiben des Plans selbst, wo tiefere Überlegungen tatsächlich auszahlen. Sobald ein guter Plan vorhanden ist, ist die Ausführung größtenteils mechanisch und Sonnet handhabt es zu einem Bruchteil der Kosten. Dieses Muster ist als /model opusplan integriert, das Opus beim Planen und Sonnet bei der Ausführung verwendet. Das Wechseln von Modellen löscht das Gespräch nicht, daher sieht Sonnet immer noch alles, das Opus produziert hat.


Was zu tun ist, wenn Sie ein Limit erreichen

  • Enterprise-Sitz-Benutzer: Die Meldung teilt Ihnen mit, wann Ihr Fenster zurückgesetzt wird. In der Zwischenzeit können Sie mit /model zu einem leichteren Modell wechseln oder, falls Ihre Organisation dies zulässt, vorübergehend auf einen API-Schlüssel zurückgreifen.

  • API-Schlüssel-Benutzer: Es gibt keine Nutzungsobergrenze, aber überprüfen Sie /cost und Ihr Console- oder Cloud-Provider-Dashboard, wenn die Ausgaben ein Problem darstellen. Unerwartet hohe Zahlen lassen sich fast immer auf sehr lange Sitzungen zurückführen, die nie gelöscht wurden.

  • Kontextfenster voll (was sich von einem Nutzungslimit unterscheidet): Führen Sie /compact aus, um weiterzumachen, oder /clear, wenn die ältere Historie nicht mehr benötigt wird.


Schnellreferenz

Befehl

Was es tut

/model

Verfügbare Modelle anzeigen und wechseln.

/cost

Token- und Dollar-Nutzung dieser Sitzung anzeigen (API-Abrechnung).

/clear

Ein neues Gespräch starten (Projektgedächtnis bleibt).

/compact

Verlauf zusammenfassen, um Kontext freizugeben.

/context

Überprüfen Sie, was derzeit in den Kontext geladen ist.

Hat dies deine Frage beantwortet?