Objectif

Nous croyons que les tests externes sont essentiels pour construire un écosystème d'IA sûr. À mesure que les capacités des modèles progressent, les conséquences des jailbreaks pourraient devenir de plus en plus importantes. Ce Programme continu s'appuie sur nos initiatives précédentes réussies de bug bounty avec plusieurs objectifs clés :

Identifier les jailbreaks universels dans nos systèmes déployés avec les protections ASL-3
Fournir une évaluation continue de l'efficacité de nos protections
Tester la capacité de nos systèmes de surveillance à détecter les vulnérabilités
Inciter à l'utilisation d'un seul canal légitime centralisé pour signaler les jailbreaks publiquement disponibles

Aperçu du Programme

Notre Programme de Bug Bounty pour la Sécurité des Modèles est géré via HackerOne. Par le biais de ce Programme, nous cherchons à trouver des jailbreaks universels qui dépassent notre système de Constitutional Classifiers. Nous exécutons également occasionnellement des programmes ciblés au sein de notre Programme global pour tester la robustesse des classifieurs que nous espérons lancer à l'avenir.

Un jailbreak universel est une technique généralisée qui suscite de manière fiable des réponses violant la politique d'un modèle de langage, indépendamment de l'invite d'entrée. Contrairement aux jailbreaks étroits, qui dépendent des spécificités d'une question ou d'un contexte particulier, les jailbreaks universels fonctionnent sur un large éventail d'invites et de scénarios.

Ceci est un Programme continu. Une fois accepté au Programme sur HackerOne, les participants peuvent soumettre des rapports de jailbreak à tout moment via ce Programme. Pour vous aider dans vos efforts de red-teaming, nous fournissons un accès à un alias de modèle gratuit qui reflète le modèle et les classifieurs en direct sur notre modèle le plus avancé et le plus récent. Votre utilisation de cet alias de modèle gratuit doit être limitée à l'exécution d'activités de red-teaming autorisées.

Portée du Programme

Ce Programme s'intéresse principalement à la découverte de jailbreaks qui sont universels, en ce sens qu'ils peuvent révéler des informations nuisibles sur un large éventail de requêtes, et détaillés, en ce sens qu'ils révèlent des informations nuisibles très spécifiques liées aux menaces biologiques.

Pour l'emphasiser, nous nous intéressons aux jailbreaks qui extraient des informations répondant à un ensemble de questions biologiques nuisibles que nous partageons avec les participants acceptés au Programme.

Nous paierons jusqu'à 35 000 $ par jailbreak universel novel identifié. Nous ne nous intéressons qu'aux jailbreaks qui révèlent des quantités substantielles d'informations nuisibles selon nos critères et notre discrétion seuls. Nous attribuons les primes selon une échelle mobile basée sur une rubrique de notation interne qui détermine le niveau de détail et de précision des réponses.

Ce programme est limité aux jailbreaks sur nos Constitutional Classifiers. Pour les vulnérabilités techniques qui pourraient exister sur nos Systèmes d'Information tels que les erreurs de configuration, les CSRF ou les falsifications de requête intersite, les attaques d'escalade de privilèges, l'injection SQL, les XSS et les attaques de traversée de répertoires, veuillez consulter notre Politique de Divulgation Responsable et soumettre votre rapport ici.

Comment Postuler

Vous pouvez postuler pour rejoindre notre Programme ici. Nous examinons les candidatures sur une base continue. Si accepté, vous recevrez une invitation via HackerOne. Si vous n'avez pas déjà de compte HackerOne, veuillez en créer un avant de postuler au Programme afin que nous puissions vous inviter directement sur la plateforme. Vous devez utiliser votre alias d'email @wearehackerone.com pour créer un compte Claude Console.

Directives de Divulgation et Obligations de Confidentialité

Tous les participants au Programme sont tenus de signer un accord de non-divulgation pour protéger la confidentialité du Programme comme condition d'adhésion. Vous pouvez divulguer publiquement :

L'existence du Programme de Bug Bounty pour la Sécurité des Modèles d'Anthropic.
Votre participation en tant que participant sélectionné au Programme.

Vous ne pouvez pas divulguer sans permission expresse :

Tout jailbreak/vulnérabilité (même résolus) en dehors du Programme sans consentement exprès d'Anthropic.
L'ensemble des questions de test.
Les détails sur les classifieurs et les atténuations de sécurité.
Les informations sur les modèles testés.
L'identité des autres participants.
Toute autre information liée au Programme, sauf tel qu'expressément autorisé ci-dessus.

Utilisation des Données du Programme par Anthropic

Le participant accepte que toutes les données soumises à Anthropic, y compris ses produits et services, en relation avec ce Programme peuvent être utilisées, stockées, partagées et/ou publiées par Anthropic indéfiniment pour promouvoir sa recherche en sécurité, le développement de modèles et les objectifs connexes sans obligation supplémentaire envers le Participant.