메인 콘텐츠로 건너뛰기

Sonnet 4.5의 안전 필터 이해하기

이번 주에 업데이트함

Claude Sonnet 4.5는 화학, 생물, 방사능, 핵(CBRN) 무기와 관련된 오용을 방지하도록 설계된 AI Safety Level 3 (ASL-3) 보호 기능을 포함합니다. 이러한 안전 조치에는 잠재적으로 위험한 입력 및 출력을 감지하는 분류기라는 필터가 포함됩니다.

내 메시지가 차단된 이유는 무엇입니까?

Sonnet 4.5의 안전 필터는 CBRN(화학, 생물, 방사능, 핵) 무기 관련 작업에 대한 지원을 방지하기 위해 고안되었습니다. 오류 메시지를 받은 경우, 필터가 이러한 특정 위협과 관련된 패턴과 일치하는 콘텐츠를 감지했습니다.

이러한 필터는 여전히 개선 중이며 때때로 정상적인 콘텐츠를 실수로 표시할 수 있습니다. 모든 자동화된 시스템과 마찬가지로 거짓 양성이 발생할 수 있습니다. 즉, 정당한 쿼리가 때때로 잘못 표시될 수 있습니다. 우리는 안전을 유지하면서 중단을 최소화하기 위해 이러한 분류기의 정확도를 개선하기 위해 적극적으로 노력하고 있습니다.

할 수 있는 일

정당한 사용에 대한 응답으로 메시지가 차단되었다고 생각하는 경우 몇 가지 옵션이 있습니다:

거짓 양성을 유발하는 패턴 피하기

분류기는 탈옥 시도 또는 난독화 기법과 유사할 수 있는 특정 패턴에 민감합니다:

  • 암호화 같은 콘텐츠 피하기: Base64 인코딩 문자열, git 커밋 해시, 16진수 시퀀스 및 기타 인코딩된 데이터는 필터를 트리거할 수 있습니다. 이러한 콘텐츠를 포함해야 하는 경우 사용 방법과 이유를 설명하기 위해 주변 콘텐츠를 포함하세요.

  • 지침 단순화: 복잡한 조건부 논리를 포함하는 지나치게 길거나 복잡한 시스템 프롬프트는 동작을 난독화하려는 시도와 유사할 수 있습니다. 프롬프트를 명확하고 직관적으로 유지하세요.

  • 생물학 관련 콘텐츠에 주의: 애플리케이션이 생물학적 또는 화학적 정보를 특별히 요구하지 않는 경우, 가능할 때 이러한 주제를 피하도록 요청을 다시 표현하는 것을 고려하세요.

기타 옵션

  • Claude Sonnet 4로 계속하기: 대화의 나머지 부분에 대해 Claude Sonnet 4로 전환할 수 있으며, 이는 다른 안전 조치를 사용하며 요청을 도와줄 수 있습니다.

  • 피드백 보내기: 피드백을 보내주시면 필터 정확도를 개선하는 데 도움이 됩니다.

  • 메시지 편집: 질문을 다시 표현하거나 정당한 사용 사례에 대한 추가 컨텍스트를 제공해 볼 수 있습니다.

필터가 필요한 이유는 무엇입니까?

AI 모델이 더욱 강력해짐에 따라 잠재적 오용으로부터 더 강력한 보호가 필요합니다. Sonnet 4.5의 ASL-3 배포 조치는 Anthropic의 책임 있는 확장 정책의 일부이며, 이는 점점 더 강력한 모델이 적절한 보호 장치를 갖추도록 보장합니다.

필터는 구체적으로 재앙적 위험을 초래할 수 있는 확장된 엔드투엔드 CBRN 워크플로우를 방지하도록 설계되었습니다. 이는 일반적인 과학 토론, 교육 콘텐츠 또는 일반적으로 이용 가능한 정보를 차단하기 위한 것이 아닙니다.

연구자 및 이중용도 애플리케이션의 경우

과학 연구에 종사하고 정당한 목적으로 액세스가 필요한 경우, 검증된 사용자를 위한 액세스 제어 시스템을 구축했습니다. 자세한 내용은 지원 팀에 문의하세요.

답변이 도움되었나요?