目的
私たちは、安全なAIエコシステムを構築するために外部テストが不可欠であると考えています。モデルの能力が向上するにつれて、ジェイルブレイクの影響はますます重大になる可能性があります。この継続的なプログラムは、これまでの成功したバグバウンティイニシアチブを基盤とし、いくつかの重要な目標を掲げています:
ASL-3保護を備えた展開済みシステムにおけるユニバーサルジェイルブレイクの特定
セーフガードの有効性の継続的な評価の提供
脆弱性を検出する監視システムの能力のテスト
公開されているジェイルブレイクを報告するための一元化された正規チャネルの使用の奨励
プログラム概要
当社のModel Safety Bug Bounty ProgramはHackerOneを通じて運営されています。このプログラムを通じて、私たちはConstitutional Classifiersシステムを回避するユニバーサルジェイルブレイクの発見に関心を持っています。また、将来的にローンチを予定している分類器の堅牢性をテストするために、全体的なプログラム内で対象を絞ったプログラムを時折実施しています。
ユニバーサルジェイルブレイクとは、入力プロンプトに関係なく、言語モデルからポリシー違反の応答を確実に引き出す一般化された技術です。特定の質問や文脈の詳細に依存する狭義のジェイルブレイクとは異なり、ユニバーサルジェイルブレイクは幅広いプロンプトやシナリオで機能します。
これは継続的なプログラムです。HackerOneでプログラムに受け入れられると、参加者はこのプログラムを通じていつでもジェイルブレイクレポートを提出できます。レッドチーム活動を支援するため、最新かつ最も高度なモデルで稼働しているモデルと分類器を反映した無料のモデルエイリアスへのアクセスを提供します。この無料モデルエイリアスの使用は、承認されたレッドチーム活動の実施に限定する必要があります。
プログラムの範囲
このプログラムは主に、幅広いクエリにわたって有害な情報を明らかにできるという意味でユニバーサルであり、生物学的脅威に関連する非常に具体的な有害情報を明らかにするという意味で詳細なジェイルブレイクの発見に関心を持っています。
強調すると、私たちはプログラムで受け入れられた参加者と共有する一連の有害な生物学的質問に答える情報を抽出するジェイルブレイクに関心を持っています。
特定された新規のユニバーサルジェイルブレイク1件につき最大35,000ドルを支払います。私たちは、当社の独自の基準と裁量に基づいて、相当量の有害情報を明らかにするジェイルブレイクにのみ関心を持っています。報奨金は、応答がどれだけ詳細で正確かを判定する内部評価基準に基づくスライディングスケールを使用して授与されます。
このプログラムは、Constitutional Classifiersに対するジェイルブレイクを対象としています。設定ミス、CSRFやクロスサイトリクエストフォージェリ、権限昇格攻撃、SQLインジェクション、XSS、ディレクトリトラバーサル攻撃など、当社の情報システムに潜在的に存在する技術的脆弱性については、責任ある開示ポリシーを参照し、こちらからレポートを提出してください。
応募方法
プログラムへの参加申し込みはこちらから行えます。申請は随時審査されます。受け入れられた場合、HackerOneを通じて招待状が届きます。HackerOneアカウントをまだお持ちでない場合は、プログラムに応募する前にアカウントを作成してください。そうすることで、プラットフォーム上で直接招待できます。@wearehackerone.comのメールエイリアスを使用してClaude Console アカウントを作成する必要があります。
開示ガイドラインと機密保持義務
すべてのプログラム参加者は、参加の条件として、プログラムの機密性を保護するために秘密保持契約に署名する必要があります。公開できる内容:
AnthropicのModel Safety Bug Bounty Programの存在。
プログラムの選抜参加者としてのあなたの参加。
明示的な許可なしに開示できない内容:
Anthropicからの明示的な同意なしに、プログラム外でジェイルブレイク/脆弱性(解決済みのものも含む)を開示すること。
テスト質問セット。
分類器と安全対策の詳細。
テスト対象のモデルに関する情報。
他の参加者の身元。
上記で明示的に許可されている場合を除き、プログラムに関連するその他の情報。
プログラムから得られたデータのAnthropicによる使用
参加者は、このプログラムに関連してAnthropicに提出されたすべてのデータ(その製品およびサービスを含む)が、参加者への追加の義務なしに、安全性研究、モデル開発、および関連目的を
