Vai al contenuto principale

Anthropic effettua il crawling dei dati dal web e come possono i proprietari dei siti bloccare il crawler?

Aggiornato questa settimana

Come da standard del settore, Anthropic utilizza una varietà di robot per raccogliere dati dal web pubblico per lo sviluppo di modelli, per effettuare ricerche sul web e per recuperare contenuti web su richiesta degli utenti. Anthropic utilizza robot diversi per garantire trasparenza e possibilità di scelta ai proprietari dei siti web. Di seguito sono riportate informazioni sui tre robot utilizzati da Anthropic e su come impostare le preferenze del proprio sito per abilitare quelli che si desidera possano accedere ai propri contenuti e limitare quelli che non si desidera.

Bot

Utilizzo

Cosa succede quando lo si disabilita

ClaudeBot

ClaudeBot aiuta a migliorare l'utilità e la sicurezza dei nostri modelli di IA generativa raccogliendo contenuti web che potrebbero potenzialmente contribuire al loro addestramento.

Quando un sito limita l'accesso a ClaudeBot, segnala che i futuri materiali del sito dovrebbero essere esclusi dai nostri dataset di addestramento dei modelli di IA.

Claude-User

Claude-User supporta gli utenti di Claude AI. Quando le persone pongono domande a Claude, questo può accedere ai siti web utilizzando un agente Claude-User.

Claude-User consente ai proprietari dei siti di controllare quali siti possono essere accessibili tramite queste richieste avviate dagli utenti. Disabilitare Claude-User sul proprio sito impedisce al nostro sistema di recuperare i contenuti in risposta a una query dell'utente, il che potrebbe ridurre la visibilità del sito per le ricerche web dirette dall'utente.

Claude-SearchBot

Claude-SearchBot naviga sul web per migliorare la qualità dei risultati di ricerca per gli utenti. Analizza i contenuti online specificamente per migliorare la pertinenza e l'accuratezza delle risposte di ricerca.

Disabilitare Claude-SearchBot sul proprio sito impedisce al nostro sistema di indicizzare i contenuti per l'ottimizzazione della ricerca, il che potrebbe ridurre la visibilità e l'accuratezza del sito nei risultati di ricerca degli utenti.

Come parte della nostra missione di costruire sistemi di frontiera sicuri e affidabili e far progredire il campo dello sviluppo responsabile dell'IA, condividiamo i principi in base ai quali raccogliamo i dati e le istruzioni su come rinunciare al nostro crawling in futuro:

  • La nostra raccolta di dati deve essere trasparente. Anthropic utilizza i Bot descritti sopra per accedere ai contenuti web.

  • Il nostro crawling non deve essere intrusivo o dirompente. Miriamo a una perturbazione minima essendo attenti alla velocità con cui eseguiamo il crawling degli stessi domini e rispettando il Crawl-delay ove appropriato.

  • I Bot di Anthropic rispettano i segnali "non eseguire il crawling" onorando le direttive standard del settore in robots.txt.

  • I Bot di Anthropic rispettano le tecnologie anti-elusione (ad esempio, non tenteremo di aggirare i CAPTCHA per i siti di cui eseguiamo il crawling).

Per limitare l'attività di crawling, supportiamo l'estensione non standard Crawl-delay per robots.txt. Un esempio potrebbe essere:

User-agent: ClaudeBot

Crawl-delay: 1

Per bloccare un Bot dall'intero sito web, aggiungere questo al file robots.txt nella directory di primo livello. Si prega di farlo per ogni sottodominio da cui si desidera rinunciare. Un esempio è:

User-agent: ClaudeBot

Disallow: /

Rinunciare al crawling da parte dei Bot di Anthropic richiede la modifica del file robots.txt nel modo sopra indicato. Metodi alternativi come il blocco degli indirizzi IP da cui operano i Bot di Anthropic potrebbero non funzionare correttamente o garantire persistentemente una rinuncia, poiché ciò impedisce la nostra capacità di leggere il file robots.txt. Inoltre, attualmente non pubblichiamo intervalli di IP, poiché utilizziamo IP pubblici dei fornitori di servizi. Questo potrebbe cambiare in futuro.

È possibile saperne di più sulle nostre pratiche e impegni di gestione dei dati nel nostro Centro assistenza. In caso di ulteriori domande o se si ritiene che i nostri Bot possano non funzionare correttamente, si prega di contattare [email protected]. Si prega di contattarci da un'email che includa il dominio per cui ci si sta contattando, poiché altrimenti è difficile verificare le segnalazioni.

Hai ricevuto la risposta alla tua domanda?