跳转到主要内容

Anthropic 是否从网络爬取数据,网站所有者如何阻止爬虫?

更新于今天

根据行业标准,Anthropic 使用多种机器人从公共网络收集数据以进行模型开发、搜索网络和按用户指示检索网络内容。Anthropic 使用不同的机器人来实现网站所有者的透明度和选择权。以下是关于 Anthropic 使用的三个机器人的信息,以及如何设置您的网站偏好以允许您想要的机器人访问您的内容并限制您不想要的机器人。

机器人

用途

禁用时会发生什么

ClaudeBot

ClaudeBot 通过收集可能有助于训练我们的生成式 AI 模型的网络内容,帮助增强我们生成式 AI 模型的实用性和安全性。

当网站限制 ClaudeBot 访问时,这表示该网站的未来材料应被排除在我们的 AI 模型训练数据集之外。

Claude-User

Claude-User 支持 Claude AI 用户。当个人向 Claude 提出问题时,它可能会使用 Claude-User 代理访问网站。

Claude-User 允许网站所有者控制哪些网站可以通过这些用户发起的请求访问。在您的网站上禁用 Claude-User 会阻止我们的系统根据用户查询检索您的内容,这可能会降低您的网站在用户定向网络搜索中的可见性。

Claude-SearchBot

Claude-SearchBot 在网络上导航以改进用户的搜索结果质量。它专门分析在线内容以增强搜索响应的相关性和准确性。

在您的网站上禁用 Claude-SearchBot 会阻止我们的系统为搜索优化索引您的内容,这可能会降低您的网站在用户搜索结果中的可见性和准确性。

作为我们建立安全可靠的前沿系统和推进负责任 AI 开发领域的使命的一部分,我们分享了我们收集数据的原则以及如何选择退出我们未来爬取的说明:

  • 我们的数据收集应该是透明的。Anthropic 使用上述机器人访问网络内容。

  • 我们的爬取应该具有侵入性或破坏性。我们通过谨慎考虑爬取同一域名的速度并在适当时尊重爬取延迟来实现最小干扰。

  • Anthropic 的机器人尊重"不爬取"信号,通过遵守 robots.txt 中的行业标准指令。

  • Anthropic 的机器人尊重反规避技术(例如,我们不会尝试绕过我们爬取的网站的验证码。)

为了限制爬取活动,我们支持 robots.txt 的非标准爬取延迟扩展。一个例子可能是:

User-agent: ClaudeBot

Crawl-delay: 1

要阻止机器人访问您的整个网站,请将以下内容添加到顶级目录中的 robots.txt 文件。请对您希望选择退出的每个子域都执行此操作。一个例子是:

User-agent: ClaudeBot

Disallow: /

选择退出被 Anthropic 机器人爬取需要按上述方式修改 robots.txt 文件。其他方法,如阻止 Anthropic 机器人运行的 IP 地址可能无法正确工作或持久保证选择退出,因为这样做会妨碍我们读取您的 robots.txt 文件的能力。此外,我们目前不发布 IP 范围,因为我们使用服务提供商的公共 IP。这在未来可能会改变。

您可以在我们的帮助中心了解更多关于我们的数据处理实践和承诺。如果您有进一步的问题,或认为我们的机器人可能出现故障,请联系 [email protected]。请从包含您联系我们的域名的电子邮件地址联系我们,否则很难验证报告。

这是否解答了您的问题?