目的
我们相信外部测试对于建立安全的AI生态系统至关重要。随着模型能力的提升,越狱的后果可能会变得越来越严重。这个持续进行的计划建立在我们之前成功的漏洞赏金计划的基础上,具有以下几个关键目标:
识别我们部署系统中具有ASL-3保护的通用越狱
持续评估我们安全措施的有效性
测试我们监控系统检测漏洞的能力
激励用户使用一个中央合法渠道报告公开可用的越狱
计划概述
我们的模型安全漏洞赏金计划通过HackerOne运营。通过该计划,我们有兴趣发现能够绕过我们Constitutional Classifiers系统的通用越狱。我们还会偶尔在整体计划内运行针对性计划,以测试我们希望在未来推出的分类器的稳健性。
通用越狱是一种通用技术,无论输入提示如何,都能可靠地从语言模型中引发违反政策的响应。与依赖特定问题或上下文细节的狭隘越狱不同,通用越狱可以在广泛的提示和场景中发挥作用。
这是一个持续进行的计划。一旦在HackerOne上被接受进入该计划,参与者可以随时通过该计划提交越狱报告。为了帮助您的红队测试工作,我们提供对免费模型别名的访问权限,该别名反映了我们最新、最先进模型上的实时模型和分类器。您对此免费模型别名的使用必须仅限于执行授权的红队测试活动。
计划范围
该计划主要关注发现通用越狱,即能够在广泛的查询中揭示有害信息的越狱,以及详细越狱,即揭示与生物威胁相关的高度具体有害信息的越狱。
需要强调的是,我们对能够提取信息以回答我们与计划中被接受的参与者共享的一组有害生物学问题的越狱感兴趣。
我们将为每个已识别的新颖、通用越狱支付最高35,000美元。我们仅对根据我们的唯一标准和判断揭示大量有害信息的越狱感兴趣。我们使用基于内部评分标准的滑动比例来颁发赏金,该标准确定响应的详细程度和准确性。
该计划的范围限于我们Constitutional Classifiers上的越狱。对于可能存在于我们信息系统上的技术漏洞,如配置错误、CSRF或跨站请求伪造、权限提升攻击、SQL注入、XSS和目录遍历攻击,请参考我们的负责任披露政策并在此处提交您的报告。
如何申请
您可以在此处申请加入我们的计划。我们滚动审查申请。如果被接受,您将通过HackerOne收到邀请。如果您还没有HackerOne账户,请在申请计划前创建一个,以便我们可以直接在平台上邀请您。您必须使用您的@wearehackerone.com电子邮件别名来创建Claude Console账户。
披露指南和保密义务
所有计划参与者都需要签署保密协议,以保护计划的保密性,这是加入的条件。您可以公开披露:
Anthropic模型安全漏洞赏金计划的存在。
您作为该计划选定参与者的参与情况。
未经明确许可,您不得披露:
任何越狱/漏洞(即使已解决)在计划外披露,除非获得Anthropic的明确同意。
测试问题集。
有关分类器和安全缓解措施的详细信息。
有关正在测试的模型的信息。
其他参与者的身份。
与计划相关的任何其他信息,除非上述明确允许。
Anthropic对计划数据的使用
参与者同意,与本计划相关提交给Anthropic的所有数据,包括其产品和服务,可能被Anthropic无限期地使用、存储、共享和/或发布,以推进其安全研究、模型开发和相关目的,无需对参与者承担进一步义务。
