ユーザーの安全性はAnthropicの、信頼性が高く、解釈可能で、操舵可能なAIシステムを構築するというミッションの中核です。Claudeと対話する新しい方法を提供する際に、誤った情報の生成、不適切なコンテンツ、ヘイトスピーチ、その他の悪用など、新しいタイプの潜在的な害が生じることが予想されます。私たちは積極的に追加のセーフティ機能に投資し、実験を行い、既存のモデルセーフティ対策を補完しており、幅広いユーザーに有用なツールを提供しながら、害を軽減するために最善を尽くしています。新製品をオープンベータで提供することで、実験、改善、フィードバックを得ることができます。以下は、私たちが導入したセーフティ機能の一部です:
当社の利用規約に基づいて、潜在的に有害なコンテンツにフラグを付ける検出モデル。
プロンプトに対するセーフティフィルター。検出モデルがコンテンツを有害と判定した場合、モデルからの応答をブロックする可能性があります。
強化されたセーフティフィルター。検出モデルの感度を上げることができます。当社のポリシーに繰り返し違反するユーザーに対して、一時的に強化されたセーフティフィルターを適用し、違反がない、または少ない期間の後にこれらの制御を削除する場合があります。
これらの機能は完全ではなく、誤検知または見落としが発生する可能性があります。これらの対策と、ユーザーへの説明方法に関するフィードバックは、セーフティシステムの改善に重要な役割を果たします。[email protected]までご意見をお寄せください。詳細については、AI安全性に関する当社の基本的な見解をお読みください。
