業界標準に従い、Anthropicは様々なロボットを使用して、モデル開発のための公開ウェブからのデータ収集、ウェブ検索、およびユーザーの指示に基づくウェブコンテンツの取得を行っています。Anthropicは異なるロボットを使用することで、ウェブサイト所有者の透明性と選択肢を提供しています。以下は、Anthropicが使用する3つのロボットに関する情報と、アクセスを許可したいロボットを有効にし、許可したくないロボットを制限するためのサイト設定方法です。
ボット | 用途 | 無効にした場合の動作 |
ClaudeBot | ClaudeBotは、生成AIモデルの有用性と安全性を向上させるために、トレーニングに貢献する可能性のあるウェブコンテンツを収集するのに役立ちます。 | サイトがClaudeBotへのアクセスを制限すると、そのサイトの将来のコンテンツがAIモデルトレーニングデータセットから除外されるべきであることを示します。 |
Claude-User | Claude-UserはClaude AIユーザーをサポートしています。個人がClaudeに質問をすると、Claude-Userエージェントを使用してウェブサイトにアクセスする場合があります。 | Claude-Userにより、サイト所有者はこれらのユーザーが開始したリクエストを通じてアクセスできるサイトを制御できます。サイトでClaude-Userを無効にすると、ユーザークエリに応じてコンテンツを取得するのが防止され、ユーザーが指示したウェブ検索でのサイトの可視性が低下する可能性があります。 |
Claude-SearchBot | Claude-SearchBotはウェブを検索して、ユーザーの検索結果の品質を向上させます。検索応答の関連性と正確性を向上させるために、オンラインコンテンツを具体的に分析します。 | サイトでClaude-SearchBotを無効にすると、検索最適化のためのコンテンツのインデックス作成が防止され、ユーザー検索結果での可視性と正確性が低下する可能性があります。 |
安全で信頼性の高いフロンティアシステムを構築し、責任あるAI開発の分野を進める使命の一環として、データ収集の原則と今後のクローリングをオプトアウトする方法に関する指示を共有しています。
データ収集は透明である必要があります。Anthropicは上記のボットを使用してウェブコンテンツにアクセスします。
クローリングは押し付けがましい、または破壊的であってはいけません。同じドメインをクローリングする速度について慎重に考慮し、適切な場合はCrawl-delayを尊重することで、最小限の支障を目指しています。
Anthropicのボットは、robots.txtの業界標準ディレクティブを尊重することで、「クローリングしないでください」シグナルを尊重します。
Anthropicのボットは回避防止技術を尊重します(例えば、クローリングするサイトのCAPTCHAをバイパスしようとはしません)。
クローリング活動を制限するために、robots.txtへの非標準Crawl-delay拡張をサポートしています。例えば以下のようになります。
User-agent: ClaudeBot
Crawl-delay: 1
ボットをウェブサイト全体からブロックするには、トップレベルディレクトリのrobots.txtファイルに以下を追加してください。オプトアウトしたいすべてのサブドメインについてこれを行ってください。例えば以下のようになります。
User-agent: ClaudeBot
Disallow: /
Anthropicボットによるクローリングをオプトアウトするには、上記の方法でrobots.txtファイルを変更する必要があります。Anthropicボットが動作するIPアドレスをブロックするなどの代替方法は、robots.txtファイルを読み取る能力を妨げるため、正しく機能しない可能性があり、オプトアウトを確実に保証しません。さらに、サービスプロバイダーのパブリックIPを使用しているため、現在IPレンジを公開していません。これは将来変わる可能性があります。
データ処理慣行とコミットメントの詳細については、ヘルプセンターをご覧ください。さらに質問がある場合、またはAnthropicボットが誤動作している可能性があると思われる場合は、[email protected]までお問い合わせください。報告を確認するのが難しいため、お問い合わせの際はお客様が連絡されているドメインを含むメールアドレスからお問い合わせください。
