Propósito

Creemos que las pruebas externas son cruciales para construir un ecosistema de IA seguro. A medida que avanzan las capacidades de los modelos, las consecuencias de los jailbreaks podrían volverse cada vez más significativas. Este Programa continuo se basa en nuestras iniciativas anteriores exitosas de recompensas por errores con varios objetivos clave:

Identificar jailbreaks universales en nuestros sistemas implementados con protecciones ASL-3
Proporcionar evaluación continua de la efectividad de nuestras salvaguardas
Probar la capacidad de nuestros sistemas de monitoreo para detectar vulnerabilidades
Incentivar el uso de un canal legítimo central único para reportar jailbreaks disponibles públicamente

Descripción General del Programa

Nuestro Programa de Recompensas por Errores de Seguridad de Modelos se ejecuta a través de HackerOne. A través de este Programa, nos interesa encontrar jailbreaks universales que superen nuestro sistema de Constitutional Classifiers. También ocasionalmente ejecutamos programas dirigidos dentro de nuestro Programa general para probar la robustez de los clasificadores que esperamos lanzar en el futuro.

Un jailbreak universal es una técnica generalizada que confiablemente obtiene respuestas que violan políticas de un modelo de lenguaje, independientemente del prompt de entrada. A diferencia de los jailbreaks estrechos, que dependen de los detalles de una pregunta o contexto particular, los jailbreaks universales funcionan en una amplia gama de prompts y escenarios.

Este es un Programa continuo. Una vez aceptado en el Programa en HackerOne, los participantes pueden enviar reportes de jailbreak en cualquier momento a través de este Programa. Para ayudar con sus esfuerzos de red-teaming, proporcionamos acceso a un alias de modelo gratuito que refleja el modelo y los clasificadores activos en nuestro modelo más avanzado y reciente. Su uso de este alias de modelo gratuito debe limitarse a realizar actividades autorizadas de red-teaming.

Alcance del Programa

Este Programa está principalmente interesado en descubrir jailbreaks que sean universales, en que puedan revelar información dañina en una amplia gama de consultas, y detallados, en que revelen información dañina altamente específica relacionada con amenazas biológicas.

Para enfatizar, nos interesan jailbreaks que extraigan información que responda a un conjunto de preguntas biológicas dañinas que compartimos con los participantes aceptados en el Programa.

Pagaremos hasta $35,000 por cada jailbreak universal novel identificado. Solo nos interesan jailbreaks que revelen cantidades sustanciales de información dañina según nuestros criterios y discreción exclusivos. Otorgamos recompensas usando una escala móvil basada en una rúbrica de calificación interna que determina cuán detalladas y precisas son las respuestas.

Este programa está limitado a jailbreaks en nuestros Constitutional Classifiers. Para vulnerabilidades técnicas que potencialmente existen en nuestros Sistemas de Información, como configuraciones incorrectas, CSRF o falsificaciones de solicitud entre sitios, ataques de escalada de privilegios, SQL Injection, XSS y ataques de traversal de directorios, consulte nuestra Política de Divulgación Responsable y envíe su reporte aquí.

Cómo Solicitar

Puede solicitar unirse a nuestro Programa aquí. Revisamos solicitudes de forma continua. Si es aceptado, recibirá una invitación a través de HackerOne. Si aún no tiene una cuenta de HackerOne, cree una antes de solicitar el Programa para que podamos invitarlo directamente en la plataforma. Debe usar su alias de correo electrónico @wearehackerone.com para crear una cuenta de Claude Console.

Directrices de Divulgación y Obligaciones de Confidencialidad

Se requiere que todos los participantes del Programa firmen un acuerdo de no divulgación para proteger la confidencialidad del Programa como condición para unirse. Puede divulgar públicamente:

La existencia del Programa de Recompensas por Errores de Seguridad de Modelos de Anthropic.
Su participación como participante seleccionado en el Programa.

No puede divulgar sin permiso expreso:

Ningún jailbreak/vulnerabilidad (incluso los resueltos) fuera del Programa sin consentimiento expreso de Anthropic.
El conjunto de preguntas de prueba.
Detalles sobre los clasificadores y mitigaciones de seguridad.
Información sobre los modelos siendo probados.
Identidad de otros participantes.
Cualquier otra información relacionada con el Programa, excepto según lo expresamente permitido arriba.

Uso de Datos del Programa por Anthropic

El Participante acepta que todos los datos enviados a Anthropic, incluidos sus productos y servicios, en conexión con este Programa pueden ser utilizados, almacenados, compartidos y/o publicados por Anthropic indefinidamente en furtherance de su investigación de seguridad, desarrollo de modelos y propósitos relacionados sin obligación adicional al Participante.