目的
我們相信外部測試對於建立安全的AI生態系統至關重要。隨著模型能力的進步,越獄的後果可能會變得越來越重大。本持續進行的計畫建立在我們之前成功的漏洞賞金計畫基礎上,具有幾個關鍵目標:
在我們具有ASL-3保護的已部署系統中識別通用越獄
持續評估我們安全措施的有效性
測試我們監控系統檢測漏洞的能力
激勵使用一個中央合法管道來報告公開可用的越獄
計畫概述
我們的模型安全漏洞賞金計畫通過HackerOne運行。通過本計畫,我們有興趣尋找超越我們Constitutional Classifiers系統的通用越獄。我們也偶爾在整體計畫內運行針對性計畫,以測試我們希望在未來推出的分類器的穩健性。
通用越獄是一種廣泛適用的技術,無論輸入提示如何,都能可靠地從語言模型中引出違反政策的回應。與依賴於特定問題或背景細節的狹隘越獄不同,通用越獄可在廣泛的提示和場景中發揮作用。
這是一個持續進行的計畫。一旦在HackerOne上被接受加入本計畫,參與者可以隨時通過本計畫提交越獄報告。為了幫助您進行紅隊測試,我們提供對免費模型別名的訪問權限,該別名反映了我們最新、最先進模型上的實時模型和分類器。您對此免費模型別名的使用必須限於執行授權的紅隊測試活動。
計畫範圍
本計畫主要有興趣發現通用的越獄,即它們可以在廣泛的查詢中揭示有害信息,以及詳細的越獄,即它們揭示與生物威脅相關的高度具體的有害信息。
需要強調的是,我們有興趣的越獄是那些提取信息以回答一組我們與計畫中被接受的參與者共享的有害生物學問題的越獄。
我們將為每個已識別的新穎、通用越獄支付最高35,000美元。我們只對根據我們的唯一標準和判斷揭示大量有害信息的越獄感興趣。我們使用基於內部評分標準的滑動比例來頒發賞金,該標準決定了回應的詳細程度和準確性。
本計畫的範圍限於我們Constitutional Classifiers上的越獄。對於可能存在於我們信息系統上的技術漏洞,例如配置錯誤、CSRF或跨站請求偽造、權限提升攻擊、SQL注入、XSS和目錄遍歷攻擊,請參閱我們的負責任披露政策並在此處提交您的報告。
如何申請
您可以在此處申請加入我們的計畫。我們按滾動方式審查申請。如果被接受,您將通過HackerOne收到邀請。如果您還沒有HackerOne帳戶,請在申請計畫前創建一個,以便我們可以直接在平台上邀請您。您必須使用您的@wearehackerone.com電子郵件別名來創建Claude Console帳戶。
披露指南與保密義務
所有計畫參與者都必須簽署保密協議,以保護計畫保密性作為加入的條件。您可以公開披露:
Anthropic模型安全漏洞賞金計畫的存在。
您作為計畫中被選中參與者的參與情況。
未經明確許可,您不得披露:
計畫外的任何越獄/漏洞(即使已解決),未經Anthropic明確同意。
測試問題集。
有關分類器和安全緩解措施的詳細信息。
有關正在測試的模型的信息。
其他參與者的身份。
與計畫相關的任何其他信息,除非上述明確允許。
Anthropic對計畫數據的使用
參與者同意,與本計畫相關提交給Anthropic的所有數據,包括其產品和服務,可由Anthropic無限期地使用、存儲、共享和/或發佈,以推進其安全研究、模型開發和相關目的,無需對參與者進一步承擔義務。
