Anthropic esegue la scansione dei dati dal web e come possono i proprietari dei siti bloccare il crawler?

Secondo gli standard del settore, Anthropic utilizza una varietà di robot per raccogliere dati dal web pubblico per lo sviluppo dei modelli, per cercare sul web e per recuperare contenuti web su richiesta degli utenti. Anthropic utilizza robot diversi per garantire trasparenza e scelta ai proprietari dei siti web. Di seguito sono riportate informazioni sui tre robot che Anthropic utilizza e come impostare le preferenze del tuo sito per consentire l'accesso a quelli che desideri e limitare quelli che non desideri.

Bot	Utilizzo	Cosa accade quando lo disabiliti
ClaudeBot	ClaudeBot aiuta a migliorare l'utilità e la sicurezza dei nostri modelli di intelligenza artificiale generativa raccogliendo contenuti web che potrebbero potenzialmente contribuire al loro addestramento.	Quando un sito limita l'accesso di ClaudeBot, segnala che i materiali futuri del sito dovrebbero essere esclusi dai nostri dataset di addestramento dei modelli di intelligenza artificiale.
Claude-User	Claude-User supporta gli utenti di Claude AI. Quando gli individui pongono domande a Claude, potrebbe accedere ai siti web utilizzando un agente Claude-User.	Claude-User consente ai proprietari dei siti di controllare quali siti possono essere accessibili attraverso queste richieste avviate dall'utente. Disabilitare Claude-User sul tuo sito impedisce al nostro sistema di recuperare i tuoi contenuti in risposta a una query dell'utente, il che potrebbe ridurre la visibilità del tuo sito per la ricerca web diretta dall'utente.
Claude-SearchBot	Claude-SearchBot naviga il web per migliorare la qualità dei risultati di ricerca per gli utenti. Analizza i contenuti online specificamente per migliorare la rilevanza e l'accuratezza delle risposte di ricerca.	Disabilitare Claude-SearchBot sul tuo sito impedisce al nostro sistema di indicizzare i tuoi contenuti per l'ottimizzazione della ricerca, il che potrebbe ridurre la visibilità e l'accuratezza del tuo sito nei risultati di ricerca degli utenti.

Come parte della nostra missione di costruire sistemi frontier sicuri e affidabili e di promuovere lo sviluppo responsabile dell'intelligenza artificiale, stiamo condividendo i principi secondo i quali raccogliamo i dati nonché le istruzioni su come rinunciare al nostro crawling in futuro:

La nostra raccolta di dati dovrebbe essere trasparente. Anthropic utilizza i Bot descritti sopra per accedere ai contenuti web.
Il nostro crawling non dovrebbe essere intrusivo o dirompente. Miriamo a un'interruzione minima essendo consapevoli di quanto velocemente eseguiamo il crawling degli stessi domini e rispettando il Crawl-delay dove appropriato.
I Bot di Anthropic rispettano i segnali "do not crawl" onorando le direttive standard del settore in robots.txt.
I Bot di Anthropic rispettano le tecnologie anti-circumvention (ad esempio, non tenteremo di aggirare i CAPTCHA per i siti che eseguiamo il crawling.)

Per limitare l'attività di crawling, supportiamo l'estensione non standard Crawl-delay per robots.txt. Un esempio di questo potrebbe essere:

User-agent: ClaudeBot

Crawl-delay: 1

Per bloccare un Bot dall'intero sito web, aggiungi questo al file robots.txt nella tua directory di livello superiore. Si prega di farlo per ogni sottodominio da cui desideri rinunciare. Un esempio di questo è:

User-agent: ClaudeBot

Disallow: /

Rinunciare al crawling da parte dei Bot di Anthropic richiede la modifica del file robots.txt nel modo descritto sopra. Metodi alternativi come il blocco degli indirizzi IP da cui operano i Bot di Anthropic potrebbero non funzionare correttamente o garantire persistentemente un'esclusione, poiché ciò ostacola la nostra capacità di leggere il tuo file robots.txt. Inoltre, attualmente non pubblichiamo intervalli di IP, poiché utilizziamo IP pubblici del provider di servizi. Questo potrebbe cambiare in futuro.

Puoi saperne di più sulle nostre pratiche di gestione dei dati e sui nostri impegni nel nostro Help Center. Se hai ulteriori domande o ritieni che i nostri Bot potrebbero non funzionare correttamente, contattaci all'indirizzo [email protected]. Si prega di contattarci da un'email che includa il dominio di cui stai contattandoci, poiché altrimenti è difficile verificare le segnalazioni.

Puoi ricevere notifiche di modifiche sostanziali a questo articolo facendo clic qui e completando il modulo:

Iscriviti agli aggiornamenti