Ir al contenido principal

Entendiendo los Filtros de Seguridad de Sonnet 4.5

Actualizado esta semana

Claude Sonnet 4.5 incluye protecciones de Nivel de Seguridad de IA 3 (ASL-3) diseñadas para prevenir el mal uso relacionado con armas químicas, biológicas, radiológicas y nucleares (CBRN). Estas medidas de seguridad incluyen filtros llamados clasificadores que detectan entradas y salidas potencialmente peligrosas.

¿Por qué se bloqueó mi mensaje?

Los filtros de seguridad de Sonnet 4.5 están diseñados para prevenir la asistencia en tareas relacionadas con armas CBRN (Químicas, Biológicas, Radiológicas y Nucleares). Si recibiste un mensaje de error, los filtros detectaron contenido que coincidía con patrones asociados a estas amenazas específicas.

Estos filtros aún se están refinando y pueden marcar inadvertidamente contenido normal en ocasiones. Como en cualquier sistema automatizado, pueden ocurrir falsos positivos, lo que significa que consultas legítimas pueden ser marcadas incorrectamente ocasionalmente. Estamos trabajando activamente para mejorar la precisión de estos clasificadores para minimizar las interrupciones mientras se mantiene la seguridad.

Qué puedes hacer

Si crees que tu mensaje está bloqueado en respuesta a un uso legítimo, tienes varias opciones:

Evita patrones que desencadenen falsos positivos

Los clasificadores son sensibles a ciertos patrones que pueden asemejar intentos de jailbreak u técnicas de ofuscación:

  • Evita contenido similar a cifrado: Las cadenas codificadas en Base64, hashes de commits de git, secuencias hexadecimales y otros datos codificados pueden desencadenar los filtros. Si necesitas incluir tal contenido, incluye contenido que lo rodee para explicar cómo y por qué se utiliza.

  • Simplifica las instrucciones: Los prompts del sistema excesivamente largos o complejos que incluyen lógica condicional intrincada pueden asemejar intentos de ofuscar el comportamiento. Mantén los prompts claros y directos.

  • Ten cuidado con contenido relacionado con biología: Si tu aplicación no requiere específicamente información biológica o química, considera reformular las solicitudes para evitar estos temas cuando sea posible.

Otras opciones

  • Continúa con Claude Sonnet 4: Puedes cambiar a Claude Sonnet 4 para el resto de la conversación, que utiliza diferentes medidas de seguridad y puede ser capaz de ayudarte con tu solicitud.

  • Envía comentarios: Puedes hacernos saber tus comentarios nos ayudan a mejorar la precisión del filtro.

  • Edita tu mensaje: Puedes intentar reformular tu pregunta o proporcionar contexto adicional sobre tu caso de uso legítimo.

¿Por qué los filtros?

A medida que los modelos de IA se vuelven más capaces, requieren protecciones más fuertes contra el mal uso potencial. Las medidas de implementación de ASL-3 de Sonnet 4.5 son parte de la Política de Escalado Responsable de Anthropic, que asegura que los modelos cada vez más capaces tengan salvaguardas apropiadas.

Los filtros están diseñados específicamente para prevenir flujos de trabajo CBRN extendidos de extremo a extremo que podrían plantear riesgos catastróficos. No están destinados a bloquear discusiones científicas generales, contenido educativo o información comúnmente disponible.

Para investigadores y aplicaciones de doble uso

Si estás trabajando en investigación científica y necesitas acceso para propósitos legítimos, hemos establecido sistemas de control de acceso para usuarios verificados. Contacta a nuestro equipo de soporte para obtener más información.

¿Ha quedado contestada tu pregunta?