跳转到主要内容

Claude Code 中的模型、使用情况和限制

更新于今天

本指南说明了您正在使用的模型、使用情况如何计量,以及如何在上下文和使用限制范围内保持长会话。


使用情况如何计量

您的登录方式决定了使用情况的计量方式。Claude Code 的其他所有方面的行为方式都相同,无论如何登录。

您的登录方式为…

您获得

"用尽"的样子

Claude Enterprise 席位(通过 /login

您组织计划中包含的使用量池,在滚动窗口上重置。

已达到限制,将在时间重置"消息。"

API 密钥(Console、Bedrock 或 Vertex)

按使用量付费,按令牌计费到该云或 Console 账户。

无硬性停止;账户按其使用量计费。

如果您使用 Enterprise 席位登录,通常在达到限制之前无需考虑令牌。如果您使用 API 密钥,/cost 命令会显示当前会话的运行支出。


选择模型

随时运行 /model 以查看您的账户可用的模型并在它们之间切换。作为粗略指南:

  • Sonnet 是默认选项,也是大多数编码工作的正确选择。它速度快、功能强大且成本高效。

  • Opus 为更难的问题提供更深入的推理,例如大型跨领域重构、困难的调试或架构决策。它会消耗更多的配额,因此在需要时切换到它,而不是默认保持开启。

  • Haiku 是最快且最便宜的选项,非常适合快速查询、简单编辑或大量脚本运行。

您可以在会话中途更改模型而不会丢失对话。常见的模式是使用 Opus 进行规划,使用 Sonnet 执行。

注意:确切的模型名称、版本和可用性会随时间变化。/model 命令始终是您账户的真实来源。


实际消耗令牌的内容

每个回合向模型发送三件事:

  1. 到目前为止的对话 — 此会话中的每条之前的消息。

  2. 项目上下文 — 您的 CLAUDE.md 和 Claude 已读取的任何文件。

  3. 您的新提示。

其中,第一项增长最快。一个长调试会话,其中 Claude 已读取二十个文件并生成了十五个差异,在每个后续消息上都会携带所有这些。这是成本和上下文限制的来源。


管理上下文窗口

上下文窗口是模型一次可以考虑的最大文本量。Claude Code 显示其填充程度的实时指示器。当它填满时,Claude 无法清楚地看到对话的最旧部分,质量下降。

两个命令可以保持它的控制:

  • /clear 清除对话并重新开始。您的 CLAUDE.md 和项目文件保持可用;仅删除聊天历史记录。每当您切换任务时使用此命令,因为它是质量和成本的最有效杠杆。

  • /compact 将到目前为止的对话总结为简短的回顾,释放空间同时保留基本上下文。当您在任务中途并需要继续时使用此命令。Claude Code 在接近限制时也会自动压缩,因此您很少会遇到硬性限制。

经验法则:在开始新任务时使用 /clear,在继续长任务时使用 /compact


五个习惯可以最大化您的使用范围

几乎每一个"我在午餐时间前用完了我的限制"的报告都可以追溯到这五个中的一个。

1. 在任务之间清除

每条之前的消息都在每个回合上重新发送,因此一个已经经历了三个不相关问题的会话在每条新消息上都要为所有三个问题付费。实际上:您刚刚完成了调试登录重定向,现在想编写数据库迁移。首先运行 /clear。一个简单的测试:如果您的下一个提示在全新的终端中完全有意义,请在发送前清除。您的 CLAUDE.md 和项目文件保持不变;仅聊天历史记录消失。一个警告:/clear 无法撤销。如果您可能仍然需要历史记录中的内容,请先复制出来或改为运行 /compact,它保留摘要而不是清除所有内容。

2. 将模型与工作相匹配

Opus 每个回合的成本是 Sonnet 的数倍,Sonnet 的成本是 Haiku 的数倍。在日常工作上花费 Opus 是耗尽每日限制的最快方式。合理的默认值:大多数编码使用 Sonnet(功能、测试、已知错误、重构);当您真正卡住或更改范围很广时使用 Opus(困难的调试、跨领域重构、架构决策);快速机械工作使用 Haiku(重命名、日志行、正则表达式解释、样板)。

3. 指向文件而不是粘贴它们

您粘贴的任何内容都会在上下文中完整地保留在会话的其余部分。通过路径引用文件让 Claude 有选择地读取并专注于您关心的部分。实际上:不要粘贴 auth.ts,而是写 look at the validateToken function in @src/auth.ts。对于日志和堆栈跟踪,在粘贴前修剪到相关的 20 或 30 行。对于任何大型内容(锁定文件、构建日志、数据转储),将其放在磁盘上并引用路径。

4. 保持 CLAUDE.md 精简

此文件被添加到每个回合的前面,因此其成本乘以您发送的消息数。一个 300 行的 CLAUDE.md 在 40 个回合的会话中是 12,000 行的输入,您在做任何工作之前就已经为其付费。规则:两次罢工,一个屏幕。仅在您必须第二次纠正 Claude 同一件事时添加注释(第一次问题通常是一次性的)。永远不要让文件增长超过大约 80 到 100 行的单个屏幕;如果需要添加新内容且没有空间,旧内容必须删除。何时更新:在您必须纠正 Claude 两次同一件事的会话之后。那时修复是新鲜的,只需一分钟就能写下来。每隔几周,阅读整个文件并删除任何不再真实或您无法记住其目的的内容。陈旧的注释比缺失的注释更糟糕,因为它们会主动误导 Claude。

5. 在大型更改前要求计划

一个计划花费几百个令牌。一个错误的 400 行差异,您恢复并重新生成,花费数千个,两次,加上解释出了什么问题的回合。实际上:对于涉及两个或三个以上文件的任何内容,切换到计划模式或只是问:"在更改任何内容之前,列出您将触及的文件以及您在每个文件中将做什么。"阅读列表,用纯英文纠正它("跳过 legacy/,暂时不要触及测试"),然后让它执行。

专业提示:使用 Opus 进行规划,使用 Sonnet 执行。Opus 的最高价值用途是编写计划本身,其中更深入的推理确实有回报。一旦存在良好的计划,执行主要是机械的,Sonnet 以成本的一小部分处理它。工作流程:/model opus,要求计划,审查并纠正它,然后 /model sonnet 和"执行上面的计划。"切换模型不会清除对话,因此 Sonnet 仍然可以看到 Opus 生成的所有内容。


达到限制时该怎么办

  • Enterprise 席位用户:消息告诉您窗口何时重置。同时,您可以使用 /model 切换到更轻的模型,或者,如果您的组织允许,暂时回退到 API 密钥。

  • API 密钥用户:没有使用量上限,但如果支出是一个问题,请检查 /cost 和您的 Console 或云提供商仪表板。意外高数字几乎总是可以追溯到从未清除过的非常长的会话。

  • 上下文窗口已满(这与使用限制不同):运行 /compact 继续,或如果不再需要较旧的历史记录,运行 /clear


快速参考

命令

它的作用

/model

查看并切换可用的模型。

/cost

显示此会话的令牌和美元使用情况(API 计费)。

/clear

开始新对话(项目记忆保留)。

/compact

总结历史记录以释放上下文。

/context

检查当前加载到上下文中的内容。

这是否解答了您的问题?