API セーフガードツール

Claude のAPI デプロイメント用のセーフガードの設定を始めたばかりの場合でも、デプロイメントがすでに実行中の場合でも、独自のAI安全プログラムを構築する際に検討すべき戦略をいくつかご紹介します。これらの提案は、Claude の特定の使用を禁止する利用規約および使用ポリシーに準拠するのに役立つように設計されています。利用規約および使用ポリシーに準拠しない場合、サービスへのアクセスが一時停止または終了される可能性があります。

基本的なセーフガード

各API呼び出しにリンクされたIDを保存して、違反コンテンツを特定する必要がある場合、システム内でそれを見つけることができるようにします。
ユーザーにIDを割り当てることを検討してください。これにより、Anthropic の AUP に違反している特定の個人を追跡でき、不正使用の場合により的を絞ったアクションが可能になります。
- API を通じて Anthropic に ID を渡すかどうかは、あなた次第です。ただし、提供された場合、違反をより正確に特定できます。エンドユーザーのプライバシーを保護するために、渡されるIDは暗号化ハッシュ化する必要があります。
Claude を利用する前に、顧客がプラットフォーム上でアカウントにサインアップすることを要求することを検討してください。
顧客が許可された使用方法を理解していることを確認してください。
Anthropic の利用規約および使用ポリシーに繰り返し違反するユーザーに警告、スロットル、または一時停止を行います。

中級のセーフガード

エンドユーザーと Claude の相互作用を限定されたプロンプトセットに制限するか、すでに持っている特定のナレッジコーパスのみを Claude にレビューさせるカスタマイズフレームワークを作成します。これにより、ユーザーが違反行為に従事する能力が低下します。
追加のセーフティフィルターを有効にします。これは、潜在的に有害なプロンプトの検出と、害を軽減するためのリアルタイムアクションの管理を支援するために Anthropic によって構築された無料のリアルタイムモデレーションツールです。
- 追加のセーフティフィルターを有効にする方法の詳細については、[email protected] にお問い合わせください。
Bedrock ユーザーの場合:
- プライベート S3 バケットをアクティブ化して、独自の評価用のプロンプトと完了を保存します。

高度なセーフガード

コンテンツモデレーション用に Claude を使用します。
すべてのエンドユーザープロンプトに対してモデレーション API を実行してから Claude に送信し、有害でないことを確認します。

包括的なセーフガード

Claude（コンテンツモデレーションに使用）またはモデレーション API によって有害とマークされたプロンプトにフラグを立てるための内部人間レビューシステムを設定して、違反率が高いユーザーを制限または削除するために介入できるようにします。

API セーフガード ツール