메인 콘텐츠로 건너뛰기

Sonnet 4.5의 API 안전 필터 이해하기

이번 주에 업데이트함

Claude Sonnet 4.5는 화학, 생물, 방사능, 핵(CBRN) 무기 관련 오용을 방지하기 위해 설계된 새로운 AI 안전 수준 3(ASL-3) 보호 기능을 포함합니다. 이러한 안전 조치는 입력 및 출력을 모니터링하여 좁은 범주의 해로운 콘텐츠를 차단하는 Constitutional Classifiers를 사용합니다.

내 API 요청이 차단된 이유는 무엇입니까?

Sonnet 4.5의 안전 필터는 CBRN 무기 관련 작업 지원 방지에 좁게 초점을 맞추고 있습니다. 요청이 차단된 경우, 필터가 이러한 특정 위협과 관련된 패턴과 일치하는 콘텐츠를 감지했습니다.

이러한 필터는 여전히 개선 중입니다. 모든 자동화된 시스템과 마찬가지로 거짓 양성이 발생할 수 있습니다. 즉, 정당한 요청이 실수로 플래그될 수 있습니다. 우리는 안전을 유지하면서 중단을 최소화하기 위해 이러한 분류기의 정확도를 개선하기 위해 적극적으로 노력하고 있습니다.

할 수 있는 것

API 요청이 차단된 경우 다음 단계를 수행할 수 있습니다:

거짓 양성을 유발하는 패턴 피하기

분류기는 탈옥 시도 또는 난독화 기법과 유사할 수 있는 특정 패턴에 민감합니다:

  • 암호 같은 콘텐츠 피하기: Base64 인코딩 문자열, git 커밋 해시, 16진수 시퀀스 및 기타 인코딩된 데이터는 필터를 트리거할 수 있습니다. 이러한 콘텐츠를 포함해야 하는 경우, 사용 사례에 필수적인지 고려하십시오.

  • 시스템 지침 단순화: 복잡한 조건부 논리를 포함하는 지나치게 길거나 복잡한 시스템 프롬프트는 동작을 난독화하려는 시도와 유사할 수 있습니다. 시스템 지침을 명확하고 간단하게 유지하십시오.

  • 생물학 관련 콘텐츠 주의: 응용 프로그램이 생물학적 또는 화학적 정보를 특별히 요구하지 않는 경우, 가능할 때 이러한 주제를 피하도록 요청을 다시 표현하는 것을 고려하십시오.

Sonnet 4로 전환

API 호출에서 Sonnet 4.5 대신 Sonnet 4를 사용하십시오. Sonnet 4는 다른 안전 조치를 사용하며 요청을 성공적으로 처리할 수 있습니다.

폴백 로직 구현

다음을 수행할 수 있는 응용 프로그램에 오류 처리를 구축하십시오:

  • 요청이 안전 필터에 의해 차단되었을 때 감지합니다.

  • 폴백으로 Sonnet 4를 사용하여 자동으로 재시도합니다.

  • 거짓 양성의 패턴을 식별하기 위해 검토할 수 있도록 사건을 기록합니다.

피드백 제공

요청이 잘못 차단되었다고 생각하는 경우, 당사 API 지원 팀에 문의하십시오. 귀하의 피드백은 필터 정확도를 개선하고 정당한 사용 사례에 대한 거짓 양성을 줄이는 데 도움이 됩니다.

새로운 필터가 필요한 이유는 무엇입니까?

AI 모델이 더욱 강력해짐에 따라 잠재적 오용에 대한 더 강력한 보호가 필요합니다. Sonnet 4.5의 ASL-3 배포 조치는 Anthropic의 책임 있는 확장 정책의 일부이며, 이는 점점 더 강력한 모델이 적절한 보호 장치를 갖추도록 보장합니다.

필터는 구체적으로 재앙적 위험을 초래할 수 있는 확장된 엔드투엔드 CBRN 워크플로우를 방지하도록 설계되었습니다. 이는 일반적인 과학 토론, 교육 콘텐츠 또는 일반적으로 이용 가능한 정보를 차단하기 위한 것이 아닙니다.

연구자 및 이중용도 응용 프로그램의 경우

과학 연구 또는 이중용도 기술 분야를 위한 응용 프로그램을 구축 중이며 정당한 목적으로 액세스가 필요한 경우, 검증된 사용자를 위한 액세스 제어 시스템을 구축했습니다. 면제에 대해 자세히 알아보려면 당사 API 지원 팀에 문의하십시오.

답변이 도움되었나요?