Claude Sonnet 4.5 incluye nuevas protecciones de Nivel de Seguridad de IA 3 (ASL-3) diseñadas para prevenir el mal uso relacionado con armas químicas, biológicas, radiológicas y nucleares (CBRN). Estas medidas de seguridad utilizan Clasificadores Constitucionales que monitorean entradas y salidas para bloquear una categoría estrecha de contenido dañino.
¿Por qué se bloqueó mi solicitud de API?
Los filtros de seguridad de Sonnet 4.5 se enfocan estrechamente en prevenir la asistencia con tareas relacionadas con armas CBRN. Si tu solicitud fue bloqueada, los filtros detectaron contenido que coincidía con patrones asociados a estas amenazas específicas.
Estos filtros aún se están refinando. Como con cualquier sistema automatizado, pueden ocurrir falsos positivos, lo que significa que las solicitudes legítimas ocasionalmente pueden ser marcadas incorrectamente. Estamos trabajando activamente para mejorar la precisión de estos clasificadores para minimizar las interrupciones mientras se mantiene la seguridad.
Lo que puedes hacer
Si tu solicitud de API se bloquea, aquí hay pasos que puedes seguir:
Evita patrones que desencadenen falsos positivos
Los clasificadores son sensibles a ciertos patrones que pueden asemejar intentos de jailbreak u técnicas de ofuscación:
Evita contenido similar a cifrado: Las cadenas codificadas en Base64, hashes de commits de git, secuencias hexadecimales y otros datos codificados pueden desencadenar los filtros. Si necesitas incluir tal contenido, considera si es esencial para tu caso de uso.
Simplifica las instrucciones del sistema: Los prompts del sistema excesivamente largos o complejos que incluyen lógica condicional intrincada pueden asemejar intentos de ofuscar el comportamiento. Mantén las instrucciones del sistema claras y directas.
Ten cuidado con contenido relacionado con biología: Si tu aplicación no requiere específicamente información biológica o química, considera reformular las solicitudes para evitar estos temas cuando sea posible.
Cambia a Sonnet 4
Usa Sonnet 4 en lugar de Sonnet 4.5 en tus llamadas de API. Sonnet 4 utiliza medidas de seguridad diferentes y puede ser capaz de procesar tu solicitud exitosamente.
Implementa lógica de respaldo
Construye manejo de errores en tu aplicación que pueda:
Detectar cuándo una solicitud se bloquea por filtros de seguridad.
Reintentar automáticamente con Sonnet 4 como respaldo.
Registrar incidentes para tu revisión para identificar patrones en falsos positivos.
Proporciona retroalimentación
Si crees que tu solicitud fue bloqueada incorrectamente, contacta a nuestro equipo de soporte de API. Tu retroalimentación nos ayuda a mejorar la precisión de los filtros y reducir falsos positivos para casos de uso legítimos.
¿Por qué los nuevos filtros?
A medida que los modelos de IA se vuelven más capaces, requieren protecciones más fuertes contra el mal uso potencial. Las medidas de implementación de ASL-3 de Sonnet 4.5 son parte de la Política de Escalado Responsable de Anthropic, que asegura que los modelos cada vez más capaces tengan salvaguardas apropiadas.
Los filtros están diseñados específicamente para prevenir flujos de trabajo CBRN extendidos de extremo a extremo que podrían plantear riesgos catastróficos. No están destinados a bloquear discusiones científicas generales, contenido educativo o información comúnmente disponible.
Para investigadores y aplicaciones de uso dual
Si estás construyendo aplicaciones para investigación científica o campos de tecnología de uso dual y necesitas acceso para propósitos legítimos, hemos establecido sistemas de control de acceso para usuarios verificados. Contacta a nuestro equipo de soporte de API para aprender más sobre exenciones.