Claude Sonnet 4.5には、化学兵器、生物兵器、放射線兵器、核兵器(CBRN)に関連する悪用を防ぐために設計された新しいAIセーフティレベル3(ASL-3)保護機能が含まれています。これらのセーフティ対策は、入力と出力を監視して有害なコンテンツの限定的なカテゴリをブロックするConstitutional Classifiersを使用しています。
APIリクエストがブロックされたのはなぜですか?
Sonnet 4.5のセーフティフィルターは、CBRN兵器関連のタスクへの支援を防ぐことに絞られています。リクエストがブロックされた場合、フィルターはこれらの特定の脅威に関連するパターンに一致するコンテンツを検出しました。
これらのフィルターはまだ改善中です。自動化されたシステムと同様に、誤検知が発生する可能性があります。つまり、正当なリクエストが誤ってフラグされることがあります。安全性を維持しながら、これらの分類器の精度を向上させ、混乱を最小化するために積極的に取り組んでいます。
実施できる対策
APIリクエストがブロックされた場合、実施できる手順は以下の通りです:
誤検知をトリガーするパターンを回避する
分類器は、ジェイルブレイク試行や難読化技術に似ている可能性のある特定のパターンに敏感です:
暗号のようなコンテンツを回避する:Base64エンコード文字列、gitコミットハッシュ、16進数シーケンス、およびその他のエンコードされたデータはフィルターをトリガーする可能性があります。そのようなコンテンツを含める必要がある場合は、ユースケースに不可欠かどうかを検討してください。
システム指示を簡潔にする:複雑な条件付きロジックを含む過度に長いまたは複雑なシステムプロンプトは、動作を難読化しようとする試みに似ているかもしれません。システム指示は明確でわかりやすくしてください。
生物学関連のコンテンツに注意する:アプリケーションが生物学的または化学的情報を特に必要としない場合は、可能な限りこれらのトピックを避けるようにリクエストを言い換えることを検討してください。
Sonnet 4に切り替える
APIコールでSonnet 4.5の代わりにSonnet 4を使用してください。Sonnet 4は異なるセーフティ対策を使用しており、リクエストを正常に処理できる可能性があります。
フォールバックロジックを実装する
以下を実行できるエラーハンドリングをアプリケーションに組み込んでください:
リクエストがセーフティフィルターによってブロックされたときを検出する。
フォールバックとしてSonnet 4で自動的に再試行する。
誤検知のパターンを特定するためにレビュー用のインシデントをログに記録する。
フィードバックを提供する
リクエストが誤ってブロックされたと思われる場合は、APIサポートチームにお問い合わせください。お客様のフィードバックは、フィルターの精度を向上させ、正当なユースケースの誤検知を減らすのに役立ちます。
新しいフィルターが必要な理由
AIモデルがより高度になるにつれて、潜在的な悪用に対する強力な保護が必要になります。Sonnet 4.5のASL-3展開対策は、Anthropicの責任あるスケーリングポリシーの一部であり、ますます高度なモデルに適切なセーフガードがあることを保証しています。
フィルターは、壊滅的なリスクをもたらす可能性のある拡張された、エンドツーエンドのCBRNワークフローを防ぐために特別に設計されています。一般的な科学的議論、教育的コンテンツ、または一般的に入手可能な情報をブロックすることは意図されていません。
研究者とデュアルユース応用向け
科学研究またはデュアルユース技術分野のアプリケーションを構築しており、正当な目的でアクセスが必要な場合は、検証されたユーザー向けのアクセス制御システムを確立しています。免除について詳しく知るには、APIサポートチームにお問い合わせください。