メインコンテンツにスキップ

Model Safety Bug Bounty Program

今週アップデートされました

目的

私たちは、安全なAIエコシステムを構築するために外部テストが重要であると考えています。モデルの能力が向上するにつれて、ジェイルブレイクの影響はますます大きくなる可能性があります。この継続的なプログラムは、以前の成功したバグバウンティイニシアティブに基づいており、いくつかの主要な目標があります:

  1. ASL-3保護を備えた当社の展開システムにおける普遍的なジェイルブレイクを特定する

  2. 当社のセーフガードの有効性の継続的な評価を提供する

  3. 当社の監視システムが脆弱性を検出する能力をテストする

  4. 公開されているジェイルブレイクを報告するための1つの中央の正当なチャネルの使用を奨励する

プログラム概要

当社のモデルセーフティバグバウンティプログラムはHackerOneを通じて実行されています。このプログラムを通じて、当社のConstitutional Classifiersシステムを超える普遍的なジェイルブレイクを見つけることに関心があります。また、将来起動予定の分類器の堅牢性をテストするために、全体的なプログラム内で時折ターゲットを絞ったプログラムを実行しています。

普遍的なジェイルブレイクは、入力プロンプトに関係なく、言語モデルからポリシー違反の応答を確実に引き出す一般化された技術です。特定の質問またはコンテキストの詳細に依存する狭いジェイルブレイクとは異なり、普遍的なジェイルブレイクは幅広いプロンプトとシナリオで機能します。

これは継続的なプログラムです。HackerOneでプログラムに受け入れられると、参加者はいつでもこのプログラムを通じてジェイルブレイクレポートを提出できます。レッドチーミングの取り組みを支援するために、当社の最新の最も高度なモデルで実行されているモデルと分類器を反映する無料モデルエイリアスへのアクセスを提供していますこの無料モデルエイリアスの使用は、認可されたレッドチーミング活動の実行に限定する必要があります。

プログラムスコープ

このプログラムは主に、普遍的なジェイルブレイク(幅広いクエリにわたって有害な情報を明らかにできる)と詳細なジェイルブレイク(生物学的脅威に関連する非常に具体的な有害情報を明らかにする)の発見に関心があります。

強調するために、当社はプログラムに受け入れられた参加者と共有する有害な生物学的質問のセットに答える情報を抽出するジェイルブレイクに関心があります。

当社は、特定された新規の普遍的なジェイルブレイクごとに最大$35,000を支払います。当社は、当社の唯一の基準と裁量に基づいて、実質的な量の有害情報を明らかにするジェイルブレイクにのみ関心があります。当社は、応答がどの程度詳細で正確であるかを決定する内部グレーディングルーブリックに基づいて、スライディングスケールを使用してバウンティを授与しています。

このプログラムはConstitutional Classifiersのジェイルブレイクを対象としています。設定ミス、CSRF、クロスサイトリクエストフォージェリ、権限昇格攻撃、SQLインジェクション、XSS、ディレクトリトラバーサル攻撃など、当社の情報システムに存在する可能性のある技術的脆弱性については、当社の責任ある開示ポリシーを参照し、こちらでレポートを提出してください。

申請方法

当社のプログラムに参加するためにこちらから申請できます。当社は申請をローリングベースで審査しています。受け入れられた場合、HackerOne経由で招待を受け取ります。HackerOneアカウントをまだ持っていない場合は、プログラムに申請する前に作成してください。これにより、当社はプラットフォーム上で直接招待できます。Claude Consoleアカウントを作成するには、@wearehackerone.comメールエイリアスを使用する必要があります。

開示ガイドラインと機密保持義務

すべてのプログラム参加者は、参加の条件としてプログラムの機密性を保護するための秘密保持契約に署名する必要があります。以下を公開することができます:

  • Anthropicのモデルセーフティバグバウンティプログラムの存在。

  • プログラムの選定参加者としてのあなたの参加。

以下を明示的な許可なしに開示することはできません:

  • Anthropicからの明示的な同意なしに、プログラム外の任意のジェイルブレイク/脆弱性(解決済みのものであっても)。

  • テスト質問セット。

  • 分類器とセーフティ軽減策の詳細。

  • テスト対象のモデルに関する情報。

  • 他の参加者の身元。

  • 上記で明示的に許可されている場合を除き、プログラムに関連するその他の情報。

プログラムからのデータに対するAnthropicの使用

参加者は、このプログラムに関連してAnthropicに提出されたすべてのデータ(

こちらの回答で解決しましたか?