Claude Code 中的模型、使用情况和限制

本指南说明了您正在使用的模型、使用情况如何计量，以及如何在长会话中保持在上下文和使用限制范围内。

使用情况如何计量

您的登录方式决定了使用情况的计量方式。Claude Code 的其他所有方面的行为方式都相同，无论如何登录。

您登录方式为…	您获得	"用尽"的样子
Claude Enterprise 席位（通过 `/login`）	您组织计划中包含的使用量池，按滚动窗口重置。	已达到限制，将在时间重置"消息。"
API 密钥（Console、Bedrock、Vertex 或 Microsoft Foundry）	按使用量付费，按令牌计费到该云或 Console 账户。	无硬性停止；账户按其使用量收费。

如果您使用 Enterprise 席位登录，通常在达到限制之前无需考虑令牌。如果您使用 API 密钥，/cost 命令会显示当前会话的运行支出。

选择模型

随时运行 /model 以查看您的账户可用的模型并在它们之间切换。作为粗略指南：

Sonnet 是默认模型，也是大多数编码工作的正确选择。它速度快、功能强大且成本高效。
Opus 为更难的问题提供更深入的推理，例如大型跨领域重构、困难的调试或架构决策。它使用的配额明显更多，因此在需要时切换到它，而不是默认保持启用。
Haiku 是最快且最便宜的选项，非常适合快速查询、简单编辑或大量脚本运行。

您可以在会话中途更改模型而不会丢失对话。常见的模式是使用 Opus 进行规划，使用 Sonnet 执行。

注意：确切的模型名称、版本和可用性会随时间变化。/model 命令始终是您账户的真实来源。

实际消耗令牌的内容

每个回合向模型发送三件事：

到目前为止的对话 — 此会话中的每条先前消息。
项目上下文 — 您的 CLAUDE.md 和 Claude 已读取的任何文件。
您的新提示。

其中，第一项增长最快。一个长调试会话中，Claude 已读取二十个文件并生成了十五个差异，这些都会在每条后续消息中携带。这是成本和上下文限制的来源。

管理上下文窗口

上下文窗口是模型一次可以考虑的最大文本量。Claude Code 显示其满度的实时指示器。当它填满时，Claude 无法清楚地看到对话的最旧部分，质量下降。

两个命令可以控制它：

/clear 清除对话并重新开始。您的 CLAUDE.md 和项目文件保持可用；仅删除聊天历史记录。每当您切换任务时使用此命令，因为它是提高质量和降低成本的最有效杠杆。
/compact 将到目前为止的对话总结为简短摘要，释放空间同时保留基本上下文。当您在任务中途需要继续时使用此命令。Claude Code 在接近限制时也会自动压缩，因此您很少会遇到硬性限制。

经验法则：开始新任务时使用 /clear，继续长任务时使用 /compact。

五个习惯可以最大化您的使用范围

几乎每个"我在午餐前就用完了限制"的报告都可以追溯到以下五个之一。

1. 在任务之间清除

每条先前的消息都在每个回合上重新发送，因此一个经历了三个不相关问题的会话在每条新消息上都要为所有三个问题付费。

实际操作：您刚刚完成了登录重定向的调试，现在想编写数据库迁移。首先运行 /clear。一个简单的测试：如果您的下一个提示在全新终端中完全有意义，请在发送前清除。您的 CLAUDE.md 和项目文件保持不变；仅聊天历史记录消失。

一个警告：/clear 无法撤销。如果您可能仍然需要历史记录中的内容，请先复制出来或改为运行 /compact，它会保留摘要而不是清除所有内容。

2. 将模型与工作相匹配

Opus 每个回合的成本是 Sonnet 的数倍，Sonnet 的成本是 Haiku 的数倍。在日常工作上花费 Opus 是耗尽每日限制的最快方式。

合理的默认值：大多数编码使用 Sonnet（功能、测试、已知错误、重构）；当您真正卡住或更改范围很广时使用 Opus（困难调试、跨领域重构、架构决策）；快速机械工作使用 Haiku（重命名、日志行、正则表达式解释、样板代码）。

3. 指向文件而不是粘贴它们

您粘贴的任何内容都会在上下文中完整保留，用于会话的其余部分。按路径引用文件让 Claude 有选择地读取并专注于您关心的部分。

实际操作：不要粘贴 auth.ts，而是写查看 src/auth.ts 中的 validateToken 函数 — 提及路径让 Claude 打开并有选择地读取。（请注意，@ 前缀会将整个文件及其 CLAUDE.md 树注入上下文中，因此当您尝试节省令牌时使用裸路径。）对于日志和堆栈跟踪，在粘贴前修剪到相关的 20 或 30 行。对于任何大型内容（锁定文件、构建日志、数据转储），将其放在磁盘上并引用路径。

4. 保持 CLAUDE.md 精简

此文件被添加到每个回合的前面。提示缓存意味着第一个回合之后的回合按便宜得多的缓存读取率计费，因此美元成本低于原始行数建议的成本，但它仍然占用每条消息上的上下文窗口空间。

规则：两次罢工，保持紧凑。仅在您必须第二次纠正 Claude 同一件事时添加注释（第一次问题通常是一次性的）。将文件保持在大约 200 行以下；如果需要添加新内容且没有空间，旧内容必须删除。

何时更新：在您必须在同一件事上纠正 Claude 两次的会话之后。那时修复是新鲜的，需要一分钟来记下。每隔几周，阅读整个文件并删除任何不再真实或您无法记住其目的的内容。陈旧的注释比缺失的注释更糟糕，因为它们会主动误导 Claude。

5. 在大型更改前请求计划

计划花费几百个令牌。一个错误的 400 行差异，您撤销并重新生成，花费数千个令牌，两次，加上解释出了什么问题的回合。实际操作：对于涉及两个或三个以上文件的任何内容，切换到计划模式或只是问："在更改任何内容之前，列出您将触及的文件以及您在每个文件中将执行的操作。"阅读列表，用纯英文纠正它（"跳过 legacy/，暂时不要触及测试"），然后让它执行。

专业提示：使用 Opus 进行规划，使用 Sonnet 执行。Opus 的最高价值用途是编写计划本身，其中更深入的推理确实有回报。一旦存在良好的计划，执行主要是机械性的，Sonnet 以成本的一小部分处理它。此模式内置为 /model opusplan，它在规划时使用 Opus，在执行时使用 Sonnet。切换模型不会清除对话，因此 Sonnet 仍然可以看到 Opus 生成的所有内容。

达到限制时该怎么办

Enterprise 席位用户：消息告诉您窗口何时重置。同时，您可以使用 /model 切换到更轻的模型，或者，如果您的组织允许，暂时回退到 API 密钥。
API 密钥用户：没有使用量上限，但如果支出是一个问题，请检查 /cost 和您的 Console 或云提供商仪表板。意外高数字几乎总是可以追溯到从未清除过的非常长的会话。
上下文窗口已满（这与使用限制不同）：运行 /compact 继续，或如果不再需要较旧的历史记录，运行 /clear。

快速参考

命令	它的作用
`/model`	查看并切换可用模型。
`/cost`	显示此会话的令牌和美元使用情况（API 计费）。
`/clear`	开始新对话（项目记忆保留）。
`/compact`	总结历史记录以释放上下文。
`/context`	检查当前加载到上下文中的内容。

Claude Code 模型配置

为Claude提供上下文：CLAUDE.md和更好的提示词

Claude Code 速查表

Claude Code 高级用户技巧

Claude Code 用户常见问题解答