目的

我们认为外部测试对于建立安全的AI生态系统至关重要。随着模型能力的提升，越狱的后果可能会变得越来越严重。这个持续进行的计划建立在我们之前成功的漏洞赏金计划的基础上，具有以下几个关键目标：

计划概述

我们的模型安全漏洞赏金计划通过HackerOne运营。通过该计划，我们有兴趣发现能够突破我们Constitutional Classifiers系统的通用越狱。我们还偶尔在整体计划中运行针对性计划，以测试我们希望在未来推出的分类器的稳健性。

通用越狱是一种通用技术，无论输入提示如何，都能可靠地从语言模型中引发违反政策的响应。与依赖特定问题或上下文细节的狭隘越狱不同，通用越狱可以在广泛的提示和场景中发挥作用。

这是一个持续进行的计划。一旦在HackerOne上被接受加入该计划，参与者可以随时通过该计划提交越狱报告。为了帮助您的红队测试工作，我们提供对免费模型别名的访问权限，该别名反映了我们最新、最先进模型上的实时模型和分类器。您对此免费模型别名的使用必须仅限于执行授权的红队测试活动。

该计划主要有兴趣发现通用的越狱，即能够在广泛的查询中揭示有害信息的越狱，以及详细的越狱，即揭示与生物威胁相关的高度具体有害信息的越狱。

需要强调的是，我们有兴趣的越狱是那些能够提取信息来回答一组我们与计划中被接受的参与者共享的有害生物学问题的越狱。

我们将为每个已识别的新颖、通用越狱支付最高35,000美元。我们只对根据我们的唯一标准和自由裁量权揭示大量有害信息的越狱感兴趣。我们使用基于内部评分标准的滑动比例来颁发赏金，该标准确定响应的详细程度和准确性。

该计划的范围限于我们Constitutional Classifiers上的越狱。对于可能存在于我们信息系统上的技术漏洞，如配置错误、CSRF或跨站请求伪造、权限提升攻击、SQL注入、XSS和目录遍历攻击，请参考我们的负责任披露政策并在此处提交您的报告。

您可以在此处申请加入我们的计划。我们滚动审查申请。如果被接受，您将通过HackerOne收到邀请。如果您还没有HackerOne账户，请在申请计划前创建一个，以便我们可以直接在平台上邀请您。您必须使用您的@wearehackerone.com电子邮件别名来创建Claude Console账户。

所有计划参与者都需要签署保密协议，以保护计划的保密性，这是加入的条件。您可以公开披露：

未经明确许可，您不得披露：

参与者同意，与本计划相关提交给Anthropic的所有数据，包括其产品和服务，可能被Anthropic无限期地使用、存储、共享和/或发布，以推进其安全研究、模型开发和相关目的，无需对参与者承担进一步义务。