Zum Hauptinhalt springen

Crawlt Anthropic Daten aus dem Web, und wie können Website-Besitzer den Crawler blockieren?

Diese Woche aktualisiert

Nach Branchenstandard nutzt Anthropic eine Vielzahl von Robots, um Daten aus dem öffentlichen Web für die Modellentwicklung zu sammeln, das Web zu durchsuchen und Web-Inhalte auf Anfrage von Nutzern abzurufen. Anthropic verwendet verschiedene Robots, um Website-Betreibern Transparenz und Wahlmöglichkeiten zu bieten. Nachfolgend finden Sie Informationen zu den drei Robots, die Anthropic nutzt, und wie Sie Ihre Website-Einstellungen konfigurieren können, um denjenigen Zugriff zu gewähren, die Sie zulassen möchten, und denjenigen zu beschränken, die Sie nicht zulassen möchten.

Bot

Verwendung

Was passiert, wenn Sie ihn deaktivieren

ClaudeBot

ClaudeBot trägt dazu bei, die Nützlichkeit und Sicherheit unserer generativen KI-Modelle zu verbessern, indem Web-Inhalte gesammelt werden, die möglicherweise zu deren Training beitragen könnten.

Wenn eine Website den Zugriff durch ClaudeBot einschränkt, signalisiert dies, dass die zukünftigen Materialien der Website von unseren KI-Modell-Trainingsdatensätzen ausgeschlossen werden sollten.

Claude-User

Claude-User unterstützt Claude AI-Nutzer. Wenn Einzelpersonen Fragen an Claude stellen, kann es Websites mit einem Claude-User-Agent aufrufen.

Claude-User ermöglicht Website-Betreibern zu kontrollieren, auf welche Websites über diese von Nutzern initiierten Anfragen zugegriffen werden kann. Wenn Sie Claude-User auf Ihrer Website deaktivieren, verhindert dies, dass unser System Ihre Inhalte als Reaktion auf eine Nutzerabfrage abruft, was die Sichtbarkeit Ihrer Website bei der von Nutzern gesteuerten Web-Suche verringern kann.

Claude-SearchBot

Claude-SearchBot durchsucht das Web, um die Qualität der Suchergebnisse für Nutzer zu verbessern. Es analysiert Online-Inhalte speziell, um die Relevanz und Genauigkeit von Suchantworten zu erhöhen.

Wenn Sie Claude-SearchBot auf Ihrer Website deaktivieren, verhindert dies, dass unser System Ihre Inhalte für die Suchoptimierung indexiert, was die Sichtbarkeit und Genauigkeit Ihrer Website in den Suchergebnissen der Nutzer verringern kann.

Im Rahmen unserer Mission, sichere und zuverlässige Frontier-Systeme zu entwickeln und das Feld der verantwortungsvollen KI-Entwicklung voranzutreiben, teilen wir die Prinzipien mit, nach denen wir Daten sammeln, sowie Anweisungen, wie Sie sich in Zukunft von unserem Crawling abmelden können:

  • Unsere Datensammlung sollte transparent sein. Anthropic nutzt die oben beschriebenen Bots, um auf Web-Inhalte zuzugreifen.

  • Unser Crawling sollte nicht aufdringlich oder störend sein. Wir streben minimale Störungen an, indem wir durchdacht vorgehen, wie schnell wir dieselben Domains durchsuchen, und Crawl-delay wo angemessen respektieren.

  • Die Bots von Anthropic respektieren „do not crawl"-Signale, indem sie Branchenstandardrichtlinien in robots.txt beachten.

  • Die Bots von Anthropic respektieren Anti-Umgehungstechnologien (z. B. werden wir nicht versuchen, CAPTCHAs für die Websites zu umgehen, die wir durchsuchen.)

Um die Crawling-Aktivität zu begrenzen, unterstützen wir die nicht standardisierte Crawl-delay-Erweiterung für robots.txt. Ein Beispiel dafür könnte sein:

User-agent: ClaudeBot

Crawl-delay: 1

Um einen Bot von Ihrer gesamten Website zu blockieren, fügen Sie dies in die robots.txt-Datei in Ihrem Top-Level-Verzeichnis ein. Bitte tun Sie dies für jede Subdomain, von der Sie sich abmelden möchten. Ein Beispiel dafür ist:

User-agent: ClaudeBot

Disallow: /

Um sich vom Crawling durch Anthropic Bots abzumelden, müssen Sie die robots.txt-Datei wie oben beschrieben ändern. Alternative Methoden wie das Blockieren von IP-Adressen, von denen aus Anthropic Bots operieren, funktionieren möglicherweise nicht korrekt oder garantieren nicht dauerhaft eine Abmeldung, da dies unsere Fähigkeit beeinträchtigt, Ihre robots.txt-Datei zu lesen. Darüber hinaus veröffentlichen wir derzeit keine IP-Bereiche, da wir öffentliche IPs von Dienstanbietern nutzen. Dies kann sich in Zukunft ändern.

Weitere Informationen zu unseren Datenverwaltungspraktiken und Verpflichtungen finden Sie in unserem Help Center. Wenn Sie weitere Fragen haben oder glauben, dass unsere Bots möglicherweise nicht ordnungsgemäß funktionieren, wenden Sie sich bitte an [email protected]. Bitte wenden Sie sich von einer E-Mail-Adresse aus an uns, die die Domain enthält, über die Sie uns kontaktieren, da es sonst schwierig ist, Berichte zu überprüfen.

Hat dies deine Frage beantwortet?