メインコンテンツにスキップ

API セーフガード ツール

今週アップデートされました

Claudeのデプロイメントに対する保護措置の設定プロセスを開始したばかりの場合でも、既にデプロイメントが稼働している場合でも、独自のAI安全プログラムを構築する際に検討すべき戦略をご紹介します。これらの提案は、Claudeの特定の使用を禁止する当社の利用規約および利用ポリシーの遵守を支援するために設計されています。利用規約および利用ポリシーに違反した場合、サービスへのアクセスが停止または終了される可能性があります。

基本的な保護措置

  • 各API呼び出しにリンクされたIDを保存し、特定の違反コンテンツを特定する必要がある場合に、システム内で見つけられるようにします。

  • ユーザーにIDを割り当てることを検討してください。これにより、AnthropicのAUPに違反している特定の個人を追跡でき、不正使用の場合により的を絞った対応が可能になります。

    • API経由でAnthropicにIDを渡すかどうかの選択はお客様次第です。ただし、提供された場合、当社はより正確に違反を特定できます。エンドユーザーのプライバシーを保護するため、渡されるIDは暗号学的にハッシュ化する必要があります。

  • Claudeを利用する前に、顧客にプラットフォームのアカウント登録を要求することを検討してください

  • 顧客が許可された使用方法を理解していることを確認してください

  • Anthropicの利用規約および利用ポリシーに繰り返し違反するユーザーに対して、警告、制限、または停止を行ってください

中級の保護措置

  • エンドユーザーとClaudeとのやり取りを限定されたプロンプトのセットに制限するか、Claudeが既に保有している特定の知識コーパスのみをレビューできるようにするカスタマイズフレームワークを作成します。これにより、ユーザーが違反行為を行う能力が低下します。

  • 追加の安全フィルターを有効にする - 潜在的に有害なプロンプトの検出を支援し、害を軽減するためのリアルタイムアクションを管理するために、Anthropicが構築した無料のリアルタイムモデレーションツール

    • 追加の安全フィルターを有効にする方法の詳細については、[email protected]までお問い合わせください。

  • Bedrockをご利用のお客様へ:

    • プライベートS3バケットを有効化して、独自の評価のためにプロンプトと補完を保存してください

高度な保護措置

包括的な保護措置

  • Claude(コンテンツモデレーションに使用)またはモデレーションAPIによって有害とマークされたプロンプトにフラグを立てる社内の人的レビューシステムを設定し、違反率の高いユーザーを制限または削除するために介入できるようにします。

こちらの回答で解決しましたか?