ユーザーセーフティへのアプローチ | Anthropicヘルプセンター

ユーザーの安全性はAnthropicの信頼性が高く、解釈可能で、操舵可能なAIシステムを構築するというミッションの中核です。Claudeと対話するための新しい方法を立ち上げるにあたり、誤った情報の生成、不適切なコンテンツ、ヘイトスピーチ、その他の悪用など、新しいタイプの潜在的な害が生じることが予想されます。私たちは既存のモデル安全性の取り組みを補完するための追加の安全機能に積極的に投資し、実験を行っており、幅広いユーザーに有用なツールを提供しながら、害を軽減するために最善を尽くしています。新しい製品をオープンベータで立ち上げることで、実験、改善、フィードバックを得ることができます。以下は、私たちが導入した安全機能の一部です：

当社の利用規約に基づいて、潜在的に有害なコンテンツをフラグする検出モデル。
プロンプトに対する安全フィルター。検出モデルがコンテンツを有害とフラグした場合、モデルからの応答をブロックする可能性があります。
強化された安全フィルター。検出モデルの感度を上げることができます。ポリシーを繰り返し違反するユーザーに対して、一時的に強化された安全フィルターを適用し、違反がない、または少ない期間の後にこれらの制御を削除する場合があります。

これらの機能は完全ではなく、誤検知または見落としが発生する可能性があります。これらの対策と、ユーザーへの説明方法に関するフィードバックは、安全システムの改善に重要な役割を果たします。[email protected]までご意見をお寄せください。詳細については、AI安全に関する当社の基本的な見解をお読みください。

Claude APIを使用して製品を立ち上げる予定です。Anthropicの利用ポリシーに違反していないことを確認するために、どのような手順を踏むべきですか？

Claude との会話に機密データを入力したいのですが、誰が私の会話を閲覧できますか？

Model Safety Bug Bounty Program

私の出力を使用してAIモデルをトレーニングできますか?

非推奨化後の新しいモデルペルソナへの適応