ユーザーの安全性はAnthropicの、信頼性が高く、解釈可能で、操舵可能なAIシステムを構築するというミッションの中核です。Claudeと対話するための新しい方法を立ち上げるにあたり、誤った情報の生成、不適切なコンテンツ、ヘイトスピーチ、その他の悪用など、新しいタイプの潜在的な害が生じることが予想されます。私たちは既存のモデル安全性の取り組みを補完するための追加の安全機能に積極的に投資し、実験を行っており、幅広いユーザーに有用なツールを提供しながら、害を軽減するために最善を尽くしています。新しい製品をオープンベータで立ち上げることで、実験、改善、そしてお客様からのフィードバックを得ることができます。以下は、私たちが導入した安全機能の一部です:
当社の利用規約に基づいて、潜在的に有害なコンテンツにフラグを付ける検出モデル。
プロンプトに対する安全フィルター。検出モデルがコンテンツを有害なものとしてフラグを付けた場合、モデルからの応答をブロックする可能性があります。
強化された安全フィルター。検出モデルの感度を上げることができます。ポリシーに繰り返し違反するユーザーに対して、一時的に強化された安全フィルターを適用し、違反がない、または少ない期間の後にこれらのコントロールを削除する場合があります。
これらの機能は完全ではなく、誤検知または見落としが発生する可能性があります。これらの対策とユーザーへの説明方法に関するお客様のフィードバックは、安全システムの改善に重要な役割を果たします。[email protected]までご意見をお聞かせください。詳細については、AI安全に関する当社の基本的な見解をお読みください。
