跳至主要內容

Anthropic 是否從網路爬取資料,網站所有者如何阻止爬蟲?

一週前已更新

根據業界標準,Anthropic 使用多種機器人從公開網路爬取資料,用於模型開發、網路搜尋和按使用者要求檢索網路內容。Anthropic 使用不同的機器人來提供網站所有者透明度和選擇權。以下是 Anthropic 使用的三個機器人的資訊,以及如何設定您的網站偏好設定,以允許您想要的機器人存取您的內容,並限制您不想要的機器人。

機器人

用途

停用時會發生什麼

ClaudeBot

ClaudeBot 透過收集可能有助於訓練我們生成式 AI 模型的網路內容,幫助增強我們生成式 AI 模型的實用性和安全性。

當網站限制 ClaudeBot 存取時,這表示該網站的未來資料應被排除在我們的 AI 模型訓練資料集之外。

Claude-User

Claude-User 支援 Claude AI 使用者。當個人向 Claude 提出問題時,它可能會使用 Claude-User 代理存取網站。

Claude-User 允許網站所有者控制哪些網站可以透過這些使用者啟動的請求存取。在您的網站上停用 Claude-User 會防止我們的系統根據使用者查詢檢索您的內容,這可能會降低您網站在使用者導向網路搜尋中的可見度。

Claude-SearchBot

Claude-SearchBot 在網路上導航以改善使用者的搜尋結果品質。它專門分析線上內容以增強搜尋回應的相關性和準確性。

在您的網站上停用 Claude-SearchBot 會防止我們的系統為搜尋最佳化索引您的內容,這可能會降低您網站在使用者搜尋結果中的可見度和準確性。

作為我們建立安全可靠的前沿系統和推進負責任 AI 開發領域的使命的一部分,我們分享了我們收集資料的原則以及如何選擇退出我們未來爬取的說明:

  • 我們的資料收集應該是透明的。Anthropic 使用上述機器人存取網路內容。

  • 我們的爬取應該具有侵入性或破壞性。我們透過謹慎考慮爬取同一網域的速度和尊重適當的爬取延遲來實現最小干擾。

  • Anthropic 的機器人尊重「不爬取」信號,透過遵守 robots.txt 中的業界標準指令。

  • Anthropic 的機器人尊重反規避技術(例如,我們不會嘗試繞過我們爬取的網站的 CAPTCHA。)

為了限制爬取活動,我們支援 robots.txt 的非標準爬取延遲擴充功能。例如:

User-agent: ClaudeBot

Crawl-delay: 1

若要阻止機器人存取您的整個網站,請將此新增至您頂層目錄中的 robots.txt 檔案。請對您想要選擇退出的每個子網域執行此操作。例如:

User-agent: ClaudeBot

Disallow: /

選擇退出被 Anthropic 機器人爬取需要按上述方式修改 robots.txt 檔案。其他方法,例如阻止 Anthropic 機器人運作的 IP 位址,可能無法正確運作或持續保證選擇退出,因為這樣做會妨礙我們讀取您的 robots.txt 檔案的能力。如果爬蟲的來源 IP 位址在此清單上,表示爬蟲來自 Anthropic。

您可以在我們的說明中心瞭解更多關於我們的資料處理實務和承諾。如果您有進一步的問題,或認為我們的機器人可能出現故障,請聯絡 [email protected]。請從包含您聯絡我們的網域的電子郵件聯絡我們,否則很難驗證報告。

您可以點擊此處並完成表單,以收到本文章的重大變更通知:

是否回答了您的問題?