Claude の API デプロイメント用のセーフガードの設定を始めたばかりの場合でも、デプロイメントが既に実行中の場合でも、独自の AI 安全プログラムを構築する際に検討すべき戦略をいくつかご紹介します。これらの提案は、Claude の特定の使用を禁止する当社の利用規約および使用ポリシーに準拠するのに役立つように設計されています。利用規約および使用ポリシーに準拠しない場合、サービスへのアクセスが一時停止または終了される可能性があります。
基本的なセーフガード
各 API 呼び出しにリンクされた ID を保存して、違反コンテンツを特定する必要がある場合、システム内でそれを見つけることができるようにします。
ユーザーに ID を割り当てることを検討してください。これにより、Anthropic の AUP に違反している特定の個人を追跡でき、不正使用の場合により的を絞ったアクションが可能になります。
API を通じて Anthropic に ID を渡すかどうかは、あなた次第です。ただし、提供された場合、違反をより正確に特定できます。エンドユーザーのプライバシーを保護するために、渡される ID は暗号化ハッシュ化する必要があります。
Claude を利用する前に、顧客がプラットフォーム上でアカウントにサインアップすることを要求することを検討してください。
顧客が許可された使用方法を理解していることを確認してください。
中級のセーフガード
エンドユーザーと Claude の相互作用を限定されたプロンプトセットに制限するか、既に持っている特定のナレッジコーパスのみを Claude にレビューさせるカスタマイズフレームワークを作成して、ユーザーが違反行為に従事する能力を低下させます。
追加のセーフティフィルターを有効にします。これは、潜在的に有害なプロンプトの検出と害を軽減するためのリアルタイムアクションの管理を支援するために Anthropic によって構築された無料のリアルタイムモデレーションツールです。
追加のセーフティフィルターを有効にする方法の詳細については、[email protected] にお問い合わせください。
Bedrock のお客様向け:
プライベート S3 バケットをアクティブ化して、プロンプトと完了を独自の評価用に保存します。
高度なセーフガード
すべてのエンドユーザープロンプトに対してモデレーション API を実行してから Claude に送信し、有害でないことを確認します。
包括的なセーフガード
Claude(コンテンツモデレーションに使用)またはモデレーション API によって有害とマークされたプロンプトにフラグを立てるための内部人間レビューシステムを設定して、違反率が高いユーザーを制限または削除するために介入できるようにします。
