Claude Sonnet 4.5 incluye nuevas protecciones de Nivel de Seguridad de IA 3 (ASL-3) diseñadas para prevenir el mal uso relacionado con armas químicas, biológicas, radiológicas y nucleares (CBRN). Estas medidas de seguridad utilizan Clasificadores Constitucionales que monitorean entradas y salidas para bloquear una categoría estrecha de contenido dañino.
¿Por qué se bloqueó mi solicitud de API?
Los filtros de seguridad de Sonnet 4.5 se enfocan estrechamente en prevenir la asistencia con tareas relacionadas con armas CBRN. Si su solicitud fue bloqueada, los filtros detectaron contenido que coincidía con patrones asociados a estas amenazas específicas.
Estos filtros aún se están refinando. Como con cualquier sistema automatizado, pueden ocurrir falsos positivos, lo que significa que las solicitudes legítimas ocasionalmente pueden ser marcadas incorrectamente. Estamos trabajando activamente para mejorar la precisión de estos clasificadores para minimizar la interrupción mientras se mantiene la seguridad.
Lo que puede hacer
Si su solicitud de API se bloquea, aquí hay pasos que puede seguir:
Evite patrones que desencadenen falsos positivos
Los clasificadores son sensibles a ciertos patrones que pueden asemejar intentos de jailbreak u técnicas de ofuscación:
Evite contenido similar a cifrado: Las cadenas codificadas en Base64, hashes de commits de git, secuencias hexadecimales y otros datos codificados pueden desencadenar los filtros. Si necesita incluir tal contenido, considere si es esencial para su caso de uso.
Simplifique las instrucciones del sistema: Los prompts del sistema excesivamente largos o complejos que incluyen lógica condicional intrincada pueden asemejar intentos de ofuscar el comportamiento. Mantenga las instrucciones del sistema claras y directas.
Tenga cuidado con contenido relacionado con biología: Si su aplicación no requiere específicamente información biológica o química, considere reformular las solicitudes para evitar estos temas cuando sea posible.
Cambie a Sonnet 4
Utilice Sonnet 4 en lugar de Sonnet 4.5 en sus llamadas de API. Sonnet 4 utiliza diferentes medidas de seguridad y puede ser capaz de procesar su solicitud exitosamente.
Implemente lógica de respaldo
Construya manejo de errores en su aplicación que pueda:
Detectar cuándo una solicitud se bloquea por filtros de seguridad.
Reintentar automáticamente con Sonnet 4 como respaldo.
Registrar incidentes para su revisión para identificar patrones en falsos positivos.
Proporcione comentarios
Si cree que su solicitud fue bloqueada incorrectamente, contacte a nuestro equipo de soporte de API. Sus comentarios nos ayudan a mejorar la precisión de los filtros y reducir falsos positivos para casos de uso legítimos.
¿Por qué los nuevos filtros?
A medida que los modelos de IA se vuelven más capaces, requieren protecciones más fuertes contra el mal uso potencial. Las medidas de implementación de ASL-3 de Sonnet 4.5 son parte de la Política de Escalado Responsable de Anthropic, que asegura que los modelos cada vez más capaces tengan salvaguardas apropiadas.
Los filtros están diseñados específicamente para prevenir flujos de trabajo CBRN extendidos de extremo a extremo que podrían plantear riesgos catastróficos. No están destinados a bloquear discusiones científicas generales, contenido educativo o información comúnmente disponible.
Para investigadores y aplicaciones de uso dual
Si está construyendo aplicaciones para investigación científica o campos de tecnología de uso dual y necesita acceso para propósitos legítimos, hemos establecido sistemas de control de acceso para usuarios verificados. Contacte a nuestro equipo de soporte de API para obtener más información sobre exenciones.