Passer au contenu principal

Anthropic explore-t-il les données du web et comment les propriétaires de sites peuvent-ils bloquer l'explorateur ?

Mis à jour il y a plus d’une semaine

Conformément aux normes de l'industrie, Anthropic utilise une variété de robots pour collecter des données du web public à des fins de développement de modèles, de recherche web et de récupération de contenu web à la demande des utilisateurs. Anthropic utilise différents robots pour assurer la transparence et le choix des propriétaires de sites. Vous trouverez ci-dessous des informations sur les trois robots qu'Anthropic utilise et comment configurer vos préférences de site pour permettre à ceux que vous souhaitez d'accéder à votre contenu et limiter les autres.

Robot

Utilisation

Que se passe-t-il lorsque vous le désactivez

ClaudeBot

ClaudeBot aide à améliorer l'utilité et la sécurité de nos modèles d'IA générative en collectant du contenu web qui pourrait potentiellement contribuer à leur entraînement.

Lorsqu'un site restreint l'accès de ClaudeBot, cela signale que les matériaux futurs du site doivent être exclus de nos ensembles de données d'entraînement de modèles d'IA.

Claude-User

Claude-User soutient les utilisateurs de Claude AI. Lorsque des individus posent des questions à Claude, il peut accéder à des sites web en utilisant un agent Claude-User.

Claude-User permet aux propriétaires de sites de contrôler quels sites peuvent être accessibles via ces demandes initiées par l'utilisateur. La désactivation de Claude-User sur votre site empêche notre système de récupérer votre contenu en réponse à une requête utilisateur, ce qui peut réduire la visibilité de votre site pour la recherche web dirigée par l'utilisateur.

Claude-SearchBot

Claude-SearchBot parcourt le web pour améliorer la qualité des résultats de recherche pour les utilisateurs. Il analyse le contenu en ligne spécifiquement pour améliorer la pertinence et la précision des réponses de recherche.

La désactivation de Claude-SearchBot sur votre site empêche notre système d'indexer votre contenu pour l'optimisation de la recherche, ce qui peut réduire la visibilité et la précision de votre site dans les résultats de recherche des utilisateurs.

Dans le cadre de notre mission de construire des systèmes frontières sûrs et fiables et de faire progresser le domaine du développement responsable de l'IA, nous partageons les principes selon lesquels nous collectons les données ainsi que les instructions sur la façon de refuser notre exploration à l'avenir :

  • Notre collecte de données doit être transparente. Anthropic utilise les robots décrits ci-dessus pour accéder au contenu web.

  • Notre exploration ne doit pas être intrusive ou perturbatrice. Nous visons une perturbation minimale en étant réfléchis quant à la rapidité avec laquelle nous explorons les mêmes domaines et en respectant le délai d'exploration le cas échéant.

  • Les robots d'Anthropic respectent les signaux « ne pas explorer » en honorer les directives standard de l'industrie dans robots.txt.

  • Les robots d'Anthropic respectent les technologies anti-contournement (par exemple, nous ne tenterons pas de contourner les CAPTCHA pour les sites que nous explorons.)

Pour limiter l'activité d'exploration, nous prenons en charge l'extension non standard Crawl-delay pour robots.txt. Un exemple de ceci pourrait être :

User-agent: ClaudeBot

Crawl-delay: 1

Pour bloquer un robot de l'ensemble de votre site web, ajoutez ceci au fichier robots.txt dans votre répertoire de niveau supérieur. Veuillez le faire pour chaque sous-domaine dont vous souhaitez refuser l'accès. Un exemple de ceci est :

User-agent: ClaudeBot

Disallow: /

Refuser d'être exploré par les robots d'Anthropic nécessite de modifier le fichier robots.txt de la manière décrite ci-dessus. Les méthodes alternatives comme le blocage de l'adresse IP (des adresses) à partir de laquelle les robots d'Anthropic fonctionnent peuvent ne pas fonctionner correctement ou garantir de manière persistante un refus, car cela entrave notre capacité à lire votre fichier robots.txt. Si un explorateur a une adresse IP source sur cette liste, cela indique que l'explorateur provient d'Anthropic.

Vous pouvez en savoir plus sur nos pratiques de traitement des données et nos engagements sur notre Centre d'aide. Si vous avez d'autres questions ou si vous pensez que nos robots pourraient mal fonctionner, veuillez nous contacter à [email protected]. Veuillez nous contacter à partir d'une adresse e-mail qui inclut le domaine auquel vous nous contactez, car il est autrement difficile de vérifier les signalements.

Vous pouvez être notifié des changements substantiels à cet article en cliquant ici et en remplissant le formulaire :

Avez-vous trouvé la réponse à votre question ?