メインコンテンツにスキップ

Sonnet 4.5のセーフティフィルターを理解する

今週アップデートされました

Claude Sonnet 4.5には、化学、生物、放射線、核(CBRN)兵器に関連する悪用を防ぐために設計されたAI Safety Level 3(ASL-3)保護が含まれています。これらのセーフティ対策には、潜在的に危険な入力と出力を検出する分類器と呼ばれるフィルターが含まれます。

メッセージがブロックされたのはなぜですか?

Sonnet 4.5のセーフティフィルターは、CBRN(化学、生物、放射線、核)兵器関連のタスクへの支援を防ぐことを目的としています。エラーメッセージが表示された場合、フィルターはこれらの特定の脅威に関連するパターンに一致するコンテンツを検出しました。

これらのフィルターはまだ改善中であり、通常のコンテンツを誤ってフラグすることがあります。自動化されたシステムと同様に、誤検知が発生する可能性があります。つまり、正当なクエリが誤ってフラグされることがあります。安全性を維持しながら混乱を最小化するために、これらの分類器の精度を向上させるために積極的に取り組んでいます。

実行できること

正当な使用に対応してメッセージがブロックされていると思われる場合は、いくつかのオプションがあります。

誤検知をトリガーするパターンを避ける

分類器は、ジェイルブレイク試行または難読化技術に似ている可能性のある特定のパターンに敏感です。

  • 暗号のようなコンテンツを避ける:Base64エンコード文字列、gitコミットハッシュ、16進数シーケンス、およびその他のエンコードされたデータはフィルターをトリガーできます。そのようなコンテンツを含める必要がある場合は、それがどのように、なぜ使用されるかを説明するために周囲のコンテンツを含めてください。

  • 指示を簡潔にする:複雑な条件付きロジックを含む過度に長いまたは複雑なシステムプロンプトは、動作を難読化しようとする試みに似ているかもしれません。プロンプトは明確でわかりやすく保ってください。

  • 生物学関連のコンテンツに注意する:アプリケーションが特に生物学的または化学的情報を必要としない場合は、可能な限りこれらのトピックを避けるようにリクエストを言い換えることを検討してください。

その他のオプション

  • Claude Sonnet 4を続行する:会話の残りの部分でClaude Sonnet 4に切り替えることができます。これは異なるセーフティ対策を使用しており、リクエストに対応できる可能性があります。

  • フィードバックを送信する:フィードバックをお知らせいただくと、フィルターの精度向上に役立ちます。

  • メッセージを編集する:質問を言い換えたり、正当な使用例に関する追加のコンテキストを提供したりすることができます。

フィルターが必要な理由

AIモデルがより高度になるにつれて、潜在的な悪用に対する強力な保護が必要になります。Sonnet 4.5のASL-3展開対策は、Anthropicの責任あるスケーリングポリシーの一部であり、ますます高度なモデルに適切なセーフガードがあることを保証しています。

フィルターは、壊滅的なリスクをもたらす可能性のある拡張された、エンドツーエンドのCBRNワークフローを防ぐために特別に設計されています。一般的な科学的議論、教育的コンテンツ、または一般的に利用可能な情報をブロックすることは意図されていません

研究者とデュアルユース応用向け

科学研究に従事しており、正当な目的のためにアクセスが必要な場合は、検証されたユーザー向けのアクセス制御システムを確立しています。詳細については、サポートチームにお問い合わせください。

こちらの回答で解決しましたか?