메인 콘텐츠로 건너뛰기

Anthropic이 웹에서 데이터를 크롤링하며, 사이트 소유자는 어떻게 크롤러를 차단할 수 있습니까?

오늘 업데이트함

업계 표준에 따라 Anthropic은 모델 개발을 위해 공개 웹에서 데이터를 수집하고, 웹을 검색하며, 사용자의 지시에 따라 웹 콘텐츠를 검색하기 위해 다양한 로봇을 사용합니다. Anthropic은 웹사이트 소유자의 투명성과 선택을 가능하게 하기 위해 다양한 로봇을 사용합니다. 아래는 Anthropic이 사용하는 세 가지 로봇에 대한 정보와 콘텐츠에 액세스하도록 허용할 로봇을 활성화하고 허용하지 않을 로봇을 제한하기 위해 사이트 환경설정을 지정하는 방법입니다.

용도

비활성화할 경우 발생하는 상황

ClaudeBot

ClaudeBot은 생성형 AI 모델의 유틸리티와 안전성을 향상시키기 위해 학습에 기여할 수 있는 웹 콘텐츠를 수집합니다.

사이트가 ClaudeBot 액세스를 제한하면 해당 사이트의 향후 자료가 AI 모델 학습 데이터세트에서 제외되어야 함을 나타냅니다.

Claude-User

Claude-User는 Claude AI 사용자를 지원합니다. 개인이 Claude에 질문을 하면 Claude-User 에이전트를 사용하여 웹사이트에 액세스할 수 있습니다.

Claude-User를 통해 사이트 소유자는 이러한 사용자 시작 요청을 통해 액세스할 수 있는 사이트를 제어할 수 있습니다. 사이트에서 Claude-User를 비활성화하면 사용자 쿼리에 대한 응답으로 콘텐츠를 검색하는 것을 방지하여 사용자 지시 웹 검색에서 사이트의 가시성이 감소할 수 있습니다.

Claude-SearchBot

Claude-SearchBot은 사용자를 위한 검색 결과 품질을 개선하기 위해 웹을 탐색합니다. 검색 응답의 관련성과 정확성을 향상시키기 위해 온라인 콘텐츠를 구체적으로 분석합니다.

사이트에서 Claude-SearchBot을 비활성화하면 검색 최적화를 위해 콘텐츠를 인덱싱하는 것을 방지하여 사용자 검색 결과에서 사이트의 가시성과 정확성이 감소할 수 있습니다.

안전하고 신뢰할 수 있는 최첨단 시스템을 구축하고 책임감 있는 AI 개발 분야를 발전시키려는 우리의 사명의 일환으로, 데이터를 수집하는 원칙과 향후 크롤링을 거부하는 방법에 대한 지침을 공유하고 있습니다:

  • 데이터 수집은 투명해야 합니다. Anthropic은 위에서 설명한 봇을 사용하여 웹 콘텐츠에 액세스합니다.

  • 크롤링은 방해가 되거나 중단되지 않아야 합니다. 동일한 도메인을 크롤링하는 속도에 대해 신중하게 생각하고 필요에 따라 Crawl-delay를 존중함으로써 최소한의 중단을 목표로 합니다.

  • Anthropic의 봇은 robots.txt의 업계 표준 지시문을 준수하여 "크롤링하지 않음" 신호를 존중합니다.

  • Anthropic의 봇은 우회 방지 기술을 존중합니다(예: 크롤링하는 사이트의 CAPTCHA를 우회하려고 시도하지 않습니다).

크롤링 활동을 제한하기 위해 robots.txt에 대한 비표준 Crawl-delay 확장을 지원합니다. 예시는 다음과 같습니다:

User-agent: ClaudeBot

Crawl-delay: 1

전체 웹사이트에서 봇을 차단하려면 최상위 디렉토리의 robots.txt 파일에 다음을 추가합니다. 거부하려는 모든 하위 도메인에 대해 이를 수행하십시오. 예시는 다음과 같습니다:

User-agent: ClaudeBot

Disallow: /

Anthropic 봇의 크롤링을 거부하려면 위의 방식으로 robots.txt 파일을 수정해야 합니다. Anthropic 봇이 작동하는 IP 주소를 차단하는 것과 같은 대체 방법은 올바르게 작동하지 않거나 거부를 지속적으로 보장하지 못할 수 있습니다. robots.txt 파일을 읽을 수 있는 능력을 방해하기 때문입니다. 또한 서비스 제공자 공개 IP를 사용하므로 현재 IP 범위를 게시하지 않습니다. 이는 향후 변경될 수 있습니다.

데이터 처리 관행 및 약속에 대해 자세히 알아보려면 도움말 센터를 방문하세요. 추가 질문이 있거나 Anthropic 봇이 오작동할 수 있다고 생각되면 [email protected]으로 문의하세요. 도메인을 확인하기 어렵기 때문에 문의 중인 도메인을 포함하는 이메일에서 연락주시기 바랍니다.

여기를 클릭하고 양식을 작성하여 이 문서의 중요한 변경 사항에 대한 알림을 받을 수 있습니다:

답변이 도움되었나요?