根據業界標準,Anthropic 使用多種機器人從公共網路收集資料以進行模型開發、搜尋網路,以及按使用者指示檢索網路內容。Anthropic 使用不同的機器人來提供網站所有者的透明度和選擇權。以下是 Anthropic 使用的三個機器人的資訊,以及如何設定您的網站偏好設定,以允許您想要存取您內容的機器人,並限制您不想要的機器人。
機器人 | 用途 | 停用時會發生什麼 |
ClaudeBot | ClaudeBot 透過收集可能有助於訓練我們生成式 AI 模型的網路內容,幫助增強我們生成式 AI 模型的實用性和安全性。 | 當網站限制 ClaudeBot 存取時,這表示該網站的未來資料應被排除在我們的 AI 模型訓練資料集之外。 |
Claude-User | Claude-User 支援 Claude AI 使用者。當個人向 Claude 提出問題時,它可能會使用 Claude-User 代理存取網站。 | Claude-User 允許網站所有者控制哪些網站可以透過這些使用者啟動的請求進行存取。在您的網站上停用 Claude-User 會防止我們的系統根據使用者查詢檢索您的內容,這可能會降低您網站在使用者導向網路搜尋中的可見性。 |
Claude-SearchBot | Claude-SearchBot 在網路上導航以改善使用者的搜尋結果品質。它專門分析線上內容以增強搜尋回應的相關性和準確性。 | 在您的網站上停用 Claude-SearchBot 會防止我們的系統為搜尋最佳化索引您的內容,這可能會降低您網站在使用者搜尋結果中的可見性和準確性。 |
作為我們建立安全可靠的前沿系統和推進負責任 AI 開發領域的使命的一部分,我們分享了我們收集資料的原則,以及如何選擇退出我們未來爬蟲活動的說明:
我們的資料收集應該是透明的。Anthropic 使用上述機器人來存取網路內容。
我們的爬蟲活動應該不具有侵入性或破壞性。我們透過謹慎考慮爬蟲同一網域的速度以及在適當時尊重爬蟲延遲來實現最小化中斷。
Anthropic 的機器人尊重「不爬蟲」信號,方法是遵守 robots.txt 中的業界標準指令。
Anthropic 的機器人尊重反規避技術(例如,我們不會嘗試繞過我們爬蟲的網站的 CAPTCHA。)
為了限制爬蟲活動,我們支援 robots.txt 的非標準爬蟲延遲擴充功能。一個例子可能是:
User-agent: ClaudeBot
Crawl-delay: 1
若要從您的整個網站封鎖機器人,請將其新增到您頂級目錄中的 robots.txt 檔案。請對您想要選擇退出的每個子網域執行此操作。一個例子是:
User-agent: ClaudeBot
Disallow: /
選擇退出被 Anthropic 機器人爬蟲需要以上述方式修改 robots.txt 檔案。替代方法,例如從 Anthropic 機器人運作的 IP 位址封鎖,可能無法正確運作或持續保證選擇退出,因為這樣做會妨礙我們讀取您的 robots.txt 檔案的能力。此外,我們目前不發佈 IP 範圍,因為我們使用服務提供者公開 IP。這在未來可能會改變。
您可以在我們的說明中心了解更多關於我們的資料處理實踐和承諾。如果您有進一步的問題,或認為我們的機器人可能出現故障,請聯絡 [email protected]。請從包含您聯絡我們的網域的電子郵件聯絡我們,因為否則很難驗證報告。
