К основному содержимому

Сканирует ли Anthropic данные из веб-сети, и как владельцы сайтов могут заблокировать краулер?

Обновлено сегодня

В соответствии с отраслевыми стандартами Anthropic использует различные боты для сбора данных из открытой сети Интернет для разработки моделей, поиска в Интернете и получения веб-контента по указанию пользователей. Anthropic использует различные боты для обеспечения прозрачности и выбора владельцев веб-сайтов. Ниже приведена информация о трех ботах, которые использует Anthropic, и о том, как установить предпочтения вашего сайта, чтобы разрешить доступ тем ботам, которые вы хотите, и ограничить доступ тем, которые вы не хотите.

Бот

Использование

Что происходит при его отключении

ClaudeBot

ClaudeBot помогает повысить полезность и безопасность наших моделей генеративного ИИ путем сбора веб-контента, который потенциально может способствовать их обучению.

Когда сайт ограничивает доступ ClaudeBot, это сигнализирует о том, что будущие материалы сайта должны быть исключены из наших наборов данных для обучения моделей ИИ.

Claude-User

Claude-User поддерживает пользователей Claude AI. Когда люди задают вопросы Claude, он может получать доступ к веб-сайтам, используя агент Claude-User.

Claude-User позволяет владельцам сайтов контролировать, какие сайты могут быть доступны через эти инициированные пользователем запросы. Отключение Claude-User на вашем сайте предотвращает получение нашей системой вашего контента в ответ на запрос пользователя, что может снизить видимость вашего сайта при поиске в Интернете, инициированном пользователем.

Claude-SearchBot

Claude-SearchBot просматривает Интернет для улучшения качества результатов поиска для пользователей. Он анализирует онлайн-контент специально для повышения релевантности и точности ответов поиска.

Отключение Claude-SearchBot на вашем сайте предотвращает индексирование нашей системой вашего контента для оптимизации поиска, что может снизить видимость вашего сайта и точность в результатах поиска пользователей.

В рамках нашей миссии по созданию безопасных и надежных передовых систем и развитию области ответственной разработки ИИ мы делимся принципами, в соответствии с которыми мы собираем данные, а также инструкциями по отказу от нашего краулинга в будущем:

  • Сбор данных должен быть прозрачным. Anthropic использует описанные выше боты для доступа к веб-контенту.

  • Наш краулинг не должен быть навязчивым или разрушительным. Мы стремимся к минимальному нарушению, тщательно подходя к скорости краулинга одних и тех же доменов и соблюдая Crawl-delay, где это уместно.

  • Боты Anthropic соблюдают сигналы "не краулить", выполняя отраслевые стандартные директивы в robots.txt.

  • Боты Anthropic соблюдают технологии защиты от обхода (например, мы не будем пытаться обойти CAPTCHA для сайтов, которые мы краулим.)

Для ограничения активности краулинга мы поддерживаем нестандартное расширение Crawl-delay для robots.txt. Пример этого может быть:

User-agent: ClaudeBot

Crawl-delay: 1

Чтобы заблокировать бота на всем вашем веб-сайте, добавьте это в файл robots.txt в вашем корневом каталоге. Пожалуйста, сделайте это для каждого поддомена, от которого вы хотите отказаться. Пример этого:

User-agent: ClaudeBot

Disallow: /

Отказ от краулинга ботами Anthropic требует изменения файла robots.txt описанным выше способом. Альтернативные методы, такие как блокирование IP-адресов, с которых работают боты Anthropic, могут работать неправильно или не гарантировать стойкий отказ, так как это препятствует нашей способности читать ваш файл robots.txt. Кроме того, мы в настоящее время не публикуем диапазоны IP, так как мы используем общедоступные IP-адреса поставщиков услуг. Это может измениться в будущем.

Вы можете узнать больше о наших практиках обработки данных и обязательствах в нашем Центре справки. Если у вас есть дополнительные вопросы или вы считаете, что наши боты могут работать неправильно, пожалуйста, свяжитесь с нами по адресу [email protected]. Пожалуйста, свяжитесь с нами с адреса электронной почты, который включает домен, по которому вы нас контактируете, так как в противном случае будет сложно проверить отчеты.

Нашли ответ на свой вопрос?