목적

우리는 안전한 AI 생태계 구축을 위해 외부 테스트가 중요하다고 믿습니다. 모델 기능이 발전함에 따라 탈옥(jailbreak)의 결과는 점점 더 심각해질 수 있습니다. 이 지속적인 프로그램은 이전의 성공적인 버그 바운티 이니셔티브를 바탕으로 여러 핵심 목표를 가지고 있습니다:

ASL-3 보호 기능이 있는 배포된 시스템에서 보편적인 탈옥 식별
보안 조치의 효과에 대한 지속적인 평가 제공
취약점 감지 능력에 대한 모니터링 시스템 테스트
공개적으로 이용 가능한 탈옥을 보고하기 위한 하나의 중앙 정당한 채널 사용 장려

프로그램 개요

우리의 모델 안전 버그 바운티 프로그램은 HackerOne을 통해 운영됩니다. 이 프로그램을 통해 우리는 Constitutional Classifiers 시스템을 능가하는 보편적인 탈옥을 찾는 데 관심이 있습니다. 또한 향후 출시할 분류기의 견고성을 테스트하기 위해 전체 프로그램 내에서 때때로 대상 프로그램을 운영합니다.

보편적인 탈옥은 입력 프롬프트에 관계없이 언어 모델에서 정책 위반 응답을 안정적으로 유도하는 일반화된 기법입니다. 특정 질문이나 맥락의 세부 사항에 따라 달라지는 좁은 범위의 탈옥과 달리, 보편적인 탈옥은 광범위한 프롬프트와 시나리오에서 작동합니다.

이것은 지속적인 프로그램입니다. HackerOne에서 프로그램에 수락되면 참가자는 언제든지 이 프로그램을 통해 탈옥 보고서를 제출할 수 있습니다. 레드팀 활동을 지원하기 위해 우리는 최신의 가장 고급 모델에서 라이브로 실행되는 모델 및 분류기를 반영하는 무료 모델 별칭에 대한 액세스를 제공합니다. 이 무료 모델 별칭의 사용은 승인된 레드팀 활동 수행으로 제한되어야 합니다.

프로그램 범위

이 프로그램은 주로 보편적인 탈옥, 즉 광범위한 쿼리에서 해로운 정보를 드러낼 수 있는 탈옥과 상세한 탈옥, 즉 생물학적 위협과 관련된 매우 구체적인 해로운 정보를 드러내는 탈옥을 발견하는 데 관심이 있습니다.

강조하자면, 우리는 프로그램에 수락된 참가자와 공유하는 해로운 생물학적 질문 세트에 답하는 정보를 추출하는 탈옥에 관심이 있습니다.

우리는 식별된 새로운 보편적인 탈옥당 최대 $35,000을 지급합니다. 우리는 우리의 단독 기준과 재량에 따라 상당한 양의 해로운 정보를 드러내는 탈옥에만 관심이 있습니다. 우리는 응답이 얼마나 상세하고 정확한지를 결정하는 내부 등급 기준에 따라 슬라이딩 스케일을 사용하여 바운티를 수여합니다.

이 프로그램은 Constitutional Classifiers의 탈옥으로 범위가 지정됩니다. 잘못된 구성, CSRF 또는 교차 사이트 요청 위조, 권한 상승 공격, SQL 주입, XSS 및 디렉토리 순회 공격과 같이 우리의 정보 시스템에 잠재적으로 존재할 수 있는 기술적 취약점의 경우 우리의 책임 있는 공개 정책을 참조하고 여기에 보고서를 제출하십시오.

신청 방법

여기에서 프로그램에 참여하기 위해 신청할 수 있습니다. 우리는 신청서를 계속 검토합니다. 수락되면 HackerOne을 통해 초대장을 받게 됩니다. 아직 HackerOne 계정이 없다면 프로그램에 신청하기 전에 계정을 만들어 주시기 바랍니다. 그러면 우리가 플랫폼에서 직접 초대할 수 있습니다. Claude Console 계정을 만들기 위해 @wearehackerone.com 이메일 별칭을 사용해야 합니다.

공개 지침 및 기밀 의무

모든 프로그램 참가자는 프로그램 참여 조건으로 프로그램 기밀성을 보호하기 위해 비공개 계약에 서명해야 합니다. 다음을 공개적으로 공개할 수 있습니다:

Anthropic의 모델 안전 버그 바운티 프로그램의 존재.
프로그램의 선정된 참가자로서의 참여.

명시적 허가 없이 공개할 수 없습니다:

Anthropic의 명시적 동의 없이 프로그램 외부에서 탈옥/취약점(해결된 것도 포함).
테스트 질문 세트.
분류기 및 안전 완화에 대한 세부 정보.
테스트 중인 모델에 대한 정보.
다른 참가자의 신원.
위에서 명시적으로 허용된 경우를 제외하고 프로그램과 관련된 기타 정보.

프로그램의 데이터에 대한 Anthropic의 사용

참가자는 이 프로그램과 관련하여 Anthropic에 제출된 모든 데이터(제품 및 서비스 포함)가 Anthropic의 안전 연구, 모델 개발 및 관련 목적을 위해 Anthropic에서 무기한 사용, 저장, 공유 및/또는 게시될 수 있으며 참가자에 대한 추가 의무가 없음에 동의합니다.

Model Safety Bug Bounty Program

목적

프로그램 개요

프로그램 범위

신청 방법

공개 지침 및 기밀 의무

프로그램의 데이터에 대한 Anthropic의 사용