Claude의 API 배포를 위한 보안 조치 설정을 시작하는 단계이든, 이미 배포가 실행 중이든 상관없이, 자체 AI 안전 프로그램을 구축할 때 고려해야 할 몇 가지 전략을 소개합니다. 이러한 제안은 Claude의 특정 사용을 금지하는 당사의 서비스 약관 및 사용 정책을 준수하도록 도와드리기 위해 설계되었습니다. 약관 및 사용 정책을 준수하지 않으면 서비스에 대한 액세스가 중단되거나 종료될 수 있습니다.
기본 보안 조치
각 API 호출과 연결된 ID를 저장하여 특정 위반 콘텐츠를 찾아야 할 경우 시스템에서 찾을 수 있도록 합니다.
사용자에게 ID를 할당하는 것을 고려하세요. 이를 통해 Anthropic의 AUP를 위반하는 특정 개인을 추적할 수 있으며, 오용 사례에 대해 더욱 표적화된 조치를 취할 수 있습니다.
API를 통해 Anthropic에 ID를 전달하는 것은 귀사의 선택입니다. 다만, 제공된 경우 당사는 위반 사항을 더욱 정확하게 파악할 수 있습니다. 최종 사용자의 개인정보 보호를 돕기 위해 전달되는 모든 ID는 암호화 해시 처리되어야 합니다.
Claude를 사용하기 전에 고객이 귀사 플랫폼에서 계정을 등록하도록 요구하는 것을 고려하세요.
고객이 허용된 사용 방식을 이해하도록 하세요.
중급 보안 조치
최종 사용자와 Claude의 상호작용을 제한된 프롬프트 세트로만 제한하거나 Claude가 이미 보유하고 있는 특정 지식 기반만 검토하도록 허용하는 사용자 정의 프레임워크를 만들어 사용자가 위반 행위에 참여할 수 있는 능력을 감소시킵니다.
추가 안전 필터 활성화 - 잠재적으로 해로운 프롬프트를 감지하고 실시간 조치를 관리하여 피해를 줄이기 위해 Anthropic에서 구축한 무료 실시간 조정 도구
추가 안전 필터를 활성화하는 방법에 대한 자세한 내용은 [email protected]으로 문의하세요.
Bedrock 고객의 경우:
자체 평가를 위해 프롬프트 및 완성을 저장하기 위해 프라이빗 S3 버킷을 활성화하세요.
고급 보안 조치
Claude로 전송되기 전에 모든 최종 사용자 프롬프트에 대해 조정 API를 실행하여 해롭지 않은지 확인하세요.
포괄적 보안 조치
Claude(콘텐츠 조정에 사용됨) 또는 조정 API에 의해 해로운 것으로 표시된 프롬프트에 플래그를 지정하는 내부 인간 검토 시스템을 설정하여 위반 비율이 높은 사용자를 제한하거나 제거하기 위해 개입할 수 있도록 합니다.
