Conformément aux normes de l'industrie, Anthropic utilise une variété de robots pour collecter des données du web public pour le développement de modèles, pour effectuer des recherches sur le web et pour récupérer du contenu web à la demande des utilisateurs. Anthropic utilise différents robots pour permettre la transparence et le choix des propriétaires de sites web. Vous trouverez ci-dessous des informations sur les trois robots qu'Anthropic utilise et comment définir les préférences de votre site pour autoriser ceux que vous souhaitez voir accéder à votre contenu et limiter ceux que vous ne souhaitez pas.
Robot | Utilisation | Ce qui se passe lorsque vous le désactivez |
ClaudeBot | ClaudeBot aide à améliorer l'utilité et la sécurité de nos modèles d'IA générative en collectant du contenu web qui pourrait potentiellement contribuer à leur entraînement. | Lorsqu'un site restreint l'accès à ClaudeBot, cela signale que les futurs contenus du site doivent être exclus de nos ensembles de données d'entraînement de modèles d'IA. |
Claude-User | Claude-User prend en charge les utilisateurs de Claude AI. Lorsque des personnes posent des questions à Claude, il peut accéder à des sites web en utilisant un agent Claude-User. | Claude-User permet aux propriétaires de sites de contrôler quels sites peuvent être accessibles via ces demandes initiées par les utilisateurs. La désactivation de Claude-User sur votre site empêche notre système de récupérer votre contenu en réponse à une requête d'utilisateur, ce qui peut réduire la visibilité de votre site pour les recherches web dirigées par les utilisateurs. |
Claude-SearchBot | Claude-SearchBot navigue sur le web pour améliorer la qualité des résultats de recherche pour les utilisateurs. Il analyse le contenu en ligne spécifiquement pour améliorer la pertinence et la précision des réponses de recherche. | La désactivation de Claude-SearchBot sur votre site empêche notre système d'indexer votre contenu pour l'optimisation de la recherche, ce qui peut réduire la visibilité et la précision de votre site dans les résultats de recherche des utilisateurs. |
Dans le cadre de notre mission de construire des systèmes de pointe sûrs et fiables et de faire progresser le domaine du développement responsable de l'IA, nous partageons les principes selon lesquels nous collectons des données ainsi que les instructions sur la façon de refuser notre exploration à l'avenir :
Notre collecte de données doit être transparente. Anthropic utilise les robots décrits ci-dessus pour accéder au contenu web.
Notre exploration ne doit pas être intrusive ou perturbatrice. Nous visons une perturbation minimale en étant réfléchis sur la rapidité avec laquelle nous explorons les mêmes domaines et en respectant Crawl-delay lorsque cela est approprié.
Les robots d'Anthropic respectent les signaux « ne pas explorer » en honorant les directives standard de l'industrie dans robots.txt.
Les robots d'Anthropic respectent les technologies anti-contournement (par exemple, nous ne tenterons pas de contourner les CAPTCHA pour les sites que nous explorons.)
Pour limiter l'activité d'exploration, nous prenons en charge l'extension non standard Crawl-delay de robots.txt. Un exemple de ceci pourrait être :
User-agent: ClaudeBot
Crawl-delay: 1
Pour bloquer un robot sur l'ensemble de votre site web, ajoutez ceci au fichier robots.txt dans votre répertoire de niveau supérieur. Veuillez le faire pour chaque sous-domaine dont vous souhaitez vous désinscrire. Un exemple de ceci est :
User-agent: ClaudeBot
Disallow: /
Se désinscrire de l'exploration par les robots d'Anthropic nécessite de modifier le fichier robots.txt de la manière décrite ci-dessus. Des méthodes alternatives comme le blocage de(s) adresse(s) IP à partir desquelles les robots d'Anthropic opèrent peuvent ne pas fonctionner correctement ou garantir de manière persistante une désinscription, car cela empêche notre capacité à lire votre fichier robots.txt. De plus, nous ne publions actuellement pas de plages d'IP, car nous utilisons des IP publiques de fournisseurs de services. Cela pourrait changer à l'avenir.
Vous pouvez en savoir plus sur nos pratiques et engagements en matière de traitement des données dans notre Centre d'aide. Si vous avez d'autres questions, ou si vous pensez que nos robots peuvent mal fonctionner, veuillez contacter [email protected]. Veuillez nous contacter à partir d'une adresse e-mail qui inclut le domaine pour lequel vous nous contactez, car il est autrement difficile de vérifier les signalements.
