メインコンテンツにスキップ

ユーザーの安全に対する私たちのアプローチ

今週アップデートされました

ユーザーの安全性は、信頼性が高く、解釈可能で、制御可能なAIシステムを構築するというAnthropicの使命の中核をなすものです。Claudeとのやり取りの新しい方法を提供するにあたり、誤情報の生成、不適切なコンテンツ、ヘイトスピーチ、その他の悪用など、新しいタイプの潜在的な害が顕在化することも予想されます。私たちは、既存のモデル安全性への取り組みを補完する追加の安全機能に積極的に投資し、実験を行っており、幅広いユーザーに役立つツールを提供すると同時に、害を軽減するために最善を尽くしています。新製品をオープンベータ版として提供することで、実験、反復、そして皆様からのフィードバックを得ることができます。以下は、私たちが導入した安全機能の一部です:

  • 利用規約に基づいて、潜在的に有害なコンテンツにフラグを立てる検出モデル。

  • プロンプトに対する安全フィルター。検出モデルがコンテンツを有害と判定した場合、モデルからの応答をブロックすることがあります。

  • 強化された安全フィルター。検出モデルの感度を高めることができます。ポリシーに繰り返し違反するユーザーに対して、一時的に強化された安全フィルターを適用し、違反がない、または少ない期間の後にこれらの制御を解除することがあります。

これらの機能は完全ではなく、誤検知や見逃しによって誤りを犯す可能性があります。これらの対策と、それをユーザーにどのように説明するかについての皆様のフィードバックは、これらの安全システムの改善に重要な役割を果たします。ご意見がございましたら、[email protected]までお気軽にお問い合わせください。詳細については、AI安全性に関する私たちの基本的な見解をお読みください

こちらの回答で解決しましたか?