Propósito

Creemos que las pruebas externas son cruciales para construir un ecosistema de IA seguro. A medida que avanzan las capacidades de los modelos, las consecuencias de los jailbreaks podrían volverse cada vez más significativas. Este Programa continuo se basa en nuestras exitosas iniciativas anteriores de recompensas por errores con varios objetivos clave:

Identificar jailbreaks universales en nuestros sistemas implementados con protecciones ASL-3
Proporcionar una evaluación continua de la efectividad de nuestras salvaguardas
Probar la capacidad de nuestros sistemas de monitoreo para detectar vulnerabilidades
Incentivar el uso de un canal legítimo central para reportar jailbreaks disponibles públicamente

Descripción General del Programa

Nuestro Programa de Recompensas por Errores de Seguridad de Modelos se ejecuta a través de HackerOne. A través de este Programa, estamos interesados en encontrar jailbreaks universales que superen nuestro sistema de Constitutional Classifiers. También ejecutamos ocasionalmente programas específicos dentro de nuestro Programa general para probar la robustez de los clasificadores que esperamos lanzar en el futuro.

Un jailbreak universal es una técnica generalizada que obtiene de manera confiable respuestas que violan las políticas de un modelo de lenguaje, independientemente del prompt de entrada. A diferencia de los jailbreaks limitados, que dependen de los detalles de una pregunta o contexto particular, los jailbreaks universales funcionan en una amplia gama de prompts y escenarios.

Este es un Programa continuo. Una vez aceptados en el Programa en HackerOne, los participantes pueden enviar informes de jailbreak en cualquier momento a través de este Programa. Para ayudar con sus esfuerzos de red-teaming, proporcionamos acceso a un alias de modelo gratuito que refleja el modelo y los clasificadores en vivo en nuestro modelo más reciente y avanzado. Su uso de este alias de modelo gratuito debe limitarse a realizar actividades de red-teaming autorizadas.

Alcance del Programa

Este Programa está principalmente interesado en descubrir jailbreaks que sean universales, en el sentido de que pueden revelar información dañina en una amplia gama de consultas, y detallados, en el sentido de que revelan información dañina altamente específica relacionada con amenazas biológicas.

Para enfatizar, estamos interesados en jailbreaks que extraigan información que responda a un conjunto de preguntas biológicas dañinas que compartimos con los participantes aceptados en el Programa.

Pagaremos hasta $35,000 por cada jailbreak universal novedoso identificado. Solo estamos interesados en jailbreaks que revelen cantidades sustanciales de información dañina según nuestros únicos criterios y discreción. Otorgamos recompensas utilizando una escala móvil basada en una rúbrica de calificación interna que determina qué tan detalladas y precisas son las respuestas.

Este programa está limitado a jailbreaks en nuestros Constitutional Classifiers. Para vulnerabilidades técnicas que potencialmente existan en nuestros Sistemas de Información, como configuraciones incorrectas, CSRFs o falsificaciones de solicitudes entre sitios, ataques de escalada de privilegios, inyección SQL, XSS y ataques de recorrido de directorios, consulte nuestra Política de Divulgación Responsable y envíe su informe aquí.

Cómo Aplicar

Puede aplicar para unirse a nuestro Programa aquí. Revisamos las aplicaciones de forma continua. Si es aceptado, recibirá una invitación a través de HackerOne. Si aún no tiene una cuenta de HackerOne, cree una antes de aplicar al Programa para que podamos invitarlo directamente en la plataforma. Debe usar su alias de correo electrónico @wearehackerone.com para crear una cuenta de Claude Console.

Pautas de Divulgación y Obligaciones de Confidencialidad

Todos los participantes del Programa deben firmar un acuerdo de no divulgación para proteger la confidencialidad del Programa como condición para unirse. Puede divulgar públicamente:

La existencia del Programa de Recompensas por Errores de Seguridad de Modelos de Anthropic.
Su participación como participante seleccionado en el Programa.

No puede divulgar sin permiso expreso:

Cualquier jailbreak/vulnerabilidad (incluso los resueltos) fuera del Programa sin el consentimiento expreso de Anthropic.
El conjunto de preguntas de prueba.
Detalles sobre los clasificadores y las mitigaciones de seguridad.
Información sobre los modelos que se están probando.
Identidad de otros participantes.
Cualquier otra información relacionada con el Programa, excepto según se permita expresamente arriba.

Uso de Datos del Programa por parte de Anthropic

El Participante acepta que todos los datos enviados a Anthropic, incluidos sus productos y servicios, en conexión con este Programa pueden ser utilizados, almacenados, compartidos y/o publicados por Anthropic indefinidamente para promover su investigación de seguridad, desarrollo de modelos y propósitos relacionados sin ninguna obligación adicional hacia el Participante.