Passer au contenu principal

Est-ce qu'Anthropic explore les données du web, et comment les propriétaires de sites peuvent-ils bloquer l'explorateur ?

Mis à jour cette semaine

Conformément aux normes de l'industrie, Anthropic utilise une variété de robots pour collecter des données sur le web public pour le développement de modèles, pour rechercher sur le web et pour récupérer du contenu web à la demande des utilisateurs. Anthropic utilise différents robots pour assurer la transparence et le choix des propriétaires de sites web. Vous trouverez ci-dessous des informations sur les trois robots qu'Anthropic utilise et comment configurer vos préférences de site pour permettre à ceux que vous souhaitez d'accéder à votre contenu et limiter ceux que vous ne souhaitez pas.

Robot

Utilisation

Ce qui se passe lorsque vous le désactivez

ClaudeBot

ClaudeBot aide à améliorer l'utilité et la sécurité de nos modèles d'IA générative en collectant du contenu web qui pourrait potentiellement contribuer à leur entraînement.

Lorsqu'un site restreint l'accès à ClaudeBot, cela signale que les matériaux futurs du site doivent être exclus de nos ensembles de données d'entraînement de modèles d'IA.

Claude-User

Claude-User soutient les utilisateurs de Claude AI. Lorsque des individus posent des questions à Claude, il peut accéder à des sites web en utilisant un agent Claude-User.

Claude-User permet aux propriétaires de sites de contrôler quels sites peuvent être accessibles via ces demandes initiées par l'utilisateur. Désactiver Claude-User sur votre site empêche notre système de récupérer votre contenu en réponse à une requête utilisateur, ce qui peut réduire la visibilité de votre site pour la recherche web dirigée par l'utilisateur.

Claude-SearchBot

Claude-SearchBot navigue sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs. Il analyse le contenu en ligne spécifiquement pour améliorer la pertinence et la précision des réponses de recherche.

Désactiver Claude-SearchBot sur votre site empêche notre système d'indexer votre contenu pour l'optimisation de la recherche, ce qui peut réduire la visibilité et la précision de votre site dans les résultats de recherche des utilisateurs.

Dans le cadre de notre mission de construire des systèmes frontière sûrs et fiables et d'avancer dans le domaine du développement responsable de l'IA, nous partageons les principes selon lesquels nous collectons des données ainsi que les instructions sur la façon de refuser notre exploration à l'avenir :

  • Notre collecte de données doit être transparente. Anthropic utilise les robots décrits ci-dessus pour accéder au contenu web.

  • Notre exploration ne doit pas être intrusive ou perturbatrice. Nous visons une perturbation minimale en étant réfléchis quant à la rapidité avec laquelle nous explorons les mêmes domaines et en respectant le délai d'exploration le cas échéant.

  • Les robots d'Anthropic respectent les signaux « ne pas explorer » en honorer les directives standard de l'industrie dans robots.txt.

  • Les robots d'Anthropic respectent les technologies anti-contournement (par exemple, nous ne tenterons pas de contourner les CAPTCHA pour les sites que nous explorons.)

Pour limiter l'activité d'exploration, nous supportons l'extension non-standard Crawl-delay pour robots.txt. Un exemple de ceci pourrait être :

User-agent: ClaudeBot

Crawl-delay: 1

Pour bloquer un robot de votre site web entier, ajoutez ceci au fichier robots.txt dans votre répertoire de niveau supérieur. Veuillez le faire pour chaque sous-domaine dont vous souhaitez refuser l'accès. Un exemple de ceci est :

User-agent: ClaudeBot

Disallow: /

Refuser d'être exploré par les robots d'Anthropic nécessite de modifier le fichier robots.txt de la manière décrite ci-dessus. Les méthodes alternatives comme bloquer l'adresse IP (les adresses IP) à partir de laquelle les robots d'Anthropic opèrent peuvent ne pas fonctionner correctement ou garantir de manière persistante un refus, car cela entrave notre capacité à lire votre fichier robots.txt. De plus, nous ne publions pas actuellement les plages d'adresses IP, car nous utilisons les adresses IP publiques des fournisseurs de services. Cela pourrait changer à l'avenir.

Vous pouvez en savoir plus sur nos pratiques de traitement des données et nos engagements sur notre Centre d'aide. Si vous avez d'autres questions, ou si vous pensez que nos robots pourraient mal fonctionner, veuillez nous contacter à [email protected]. Veuillez nous contacter à partir d'une adresse e-mail qui inclut le domaine auquel vous nous contactez, car il est autrement difficile de vérifier les rapports.

Avez-vous trouvé la réponse à votre question ?