Anthropic이 웹에서 데이터를 수집하나요? 사이트 소유자는 크롤러를 어떻게 차단할 수 있나요?

업계 표준에 따라 Anthropic은 모델 개발, 웹 검색, 사용자 요청에 따른 웹 콘텐츠 검색을 위해 공개 웹에서 데이터를 수집하는 다양한 로봇을 사용합니다. Anthropic은 웹사이트 소유자의 투명성과 선택권을 보장하기 위해 서로 다른 로봇을 사용합니다. 아래는 Anthropic이 사용하는 세 가지 로봇과 콘텐츠에 접근할 수 있는 로봇을 활성화하고 접근을 제한할 로봇을 설정하는 방법에 대한 정보입니다.

봇	용도	비활성화하면 어떻게 되나요
ClaudeBot	ClaudeBot은 학습에 기여할 수 있는 웹 콘텐츠를 수집하여 생성형 AI 모델의 유용성과 안전성을 향상시킵니다.	사이트에서 ClaudeBot 접근을 제한하면 해당 사이트의 향후 자료가 AI 모델 학습 데이터세트에서 제외되어야 함을 나타냅니다.
Claude-User	Claude-User는 Claude AI 사용자를 지원합니다. 사용자가 Claude에 질문하면 Claude-User 에이전트를 사용하여 웹사이트에 접근할 수 있습니다.	Claude-User를 통해 사이트 소유자는 사용자가 시작한 요청으로 어떤 사이트에 접근할 수 있는지 제어할 수 있습니다. 사이트에서 Claude-User를 비활성화하면 사용자 쿼리에 응답하여 콘텐츠를 검색하지 못하므로 사용자 지정 웹 검색에서 사이트의 가시성이 감소할 수 있습니다.
Claude-SearchBot	Claude-SearchBot은 사용자를 위한 검색 결과 품질을 개선하기 위해 웹을 탐색합니다. 검색 응답의 관련성과 정확성을 향상시키기 위해 온라인 콘텐츠를 분석합니다.	사이트에서 Claude-SearchBot을 비활성화하면 검색 최적화를 위해 콘텐츠를 인덱싱하지 못하므로 사용자 검색 결과에서 사이트의 가시성과 정확성이 감소할 수 있습니다.

안전하고 신뢰할 수 있는 최첨단 시스템을 구축하고 책임감 있는 AI 개발 분야를 발전시키려는 우리의 사명의 일환으로, 데이터 수집 원칙과 향후 크롤링을 거부하는 방법에 대한 지침을 공유하고 있습니다:

데이터 수집은 투명해야 합니다. Anthropic은 위에서 설명한 봇을 사용하여 웹 콘텐츠에 접근합니다.
크롤링은 방해가 되거나 중단적이지 않아야 합니다. 같은 도메인을 크롤링하는 속도에 대해 신중하게 생각하고 필요한 경우 Crawl-delay를 존중하여 최소한의 중단을 목표로 합니다.
Anthropic의 봇은 robots.txt의 업계 표준 지시문을 준수하여 "크롤링 금지" 신호를 존중합니다.
Anthropic의 봇은 우회 방지 기술을 존중합니다(예: 크롤링하는 사이트의 CAPTCHA를 우회하려고 시도하지 않습니다).

크롤링 활동을 제한하기 위해 robots.txt에 대한 비표준 Crawl-delay 확장을 지원합니다. 예를 들면:

User-agent: ClaudeBot

Crawl-delay: 1

전체 웹사이트에서 봇을 차단하려면 최상위 디렉토리의 robots.txt 파일에 다음을 추가하세요. 거부하려는 모든 하위 도메인에 대해 이를 수행하세요. 예를 들면:

User-agent: ClaudeBot

Disallow: /

Anthropic 봇의 크롤링을 거부하려면 위의 방식으로 robots.txt 파일을 수정해야 합니다. Anthropic 봇이 작동하는 IP 주소를 차단하는 등의 대체 방법은 올바르게 작동하지 않거나 거부를 지속적으로 보장하지 못할 수 있습니다. 이렇게 하면 robots.txt 파일을 읽을 수 있는 능력이 방해되기 때문입니다. 크롤러의 소스 IP 주소가 이 목록에 있으면 크롤러가 Anthropic에서 오는 것입니다.

데이터 처리 관행 및 약속에 대해 자세히 알아보려면 도움말 센터를 방문하세요. 추가 질문이 있거나 봇이 오작동할 수 있다고 생각되면 [email protected]으로 문의하세요. 도메인을 확인하기 어려우므로 문의할 때 도메인을 포함하는 이메일에서 연락해 주세요.

여기를 클릭하고 양식을 작성하여 이 문서의 중요한 변경 사항을 알림받을 수 있습니다:

업데이트 구독