Objectif

Nous croyons que les tests externes sont cruciaux pour construire un écosystème d'IA sûr. À mesure que les capacités des modèles progressent, les conséquences des jailbreaks pourraient devenir de plus en plus importantes. Ce Programme continu s'appuie sur nos précédentes initiatives de bug bounty réussies avec plusieurs objectifs clés :

Identifier les jailbreaks universels dans nos systèmes déployés avec des protections ASL-3
Fournir une évaluation continue de l'efficacité de nos mesures de protection
Tester la capacité de nos systèmes de surveillance à détecter les vulnérabilités
Encourager l'utilisation d'un canal légitime central unique pour signaler les jailbreaks accessibles au public

Aperçu du Programme

Notre Programme de Bug Bounty pour la Sécurité des Modèles est géré via HackerOne. Dans le cadre de ce Programme, nous cherchons à trouver des jailbreaks universels qui contournent notre système de Constitutional Classifiers. Nous organisons également occasionnellement des programmes ciblés au sein de notre Programme global pour tester la robustesse des classificateurs que nous espérons lancer à l'avenir.

Un jailbreak universel est une technique généralisée qui suscite de manière fiable des réponses violant les politiques d'un modèle de langage, indépendamment de l'invite d'entrée. Contrairement aux jailbreaks étroits, qui dépendent des spécificités d'une question ou d'un contexte particulier, les jailbreaks universels fonctionnent sur un large éventail d'invites et de scénarios.

Il s'agit d'un Programme continu. Une fois acceptés dans le Programme sur HackerOne, les participants peuvent soumettre des rapports de jailbreak à tout moment via ce Programme. Pour faciliter vos efforts de red-teaming, nous fournissons un accès à un alias de modèle gratuit qui reflète le modèle et les classificateurs en direct sur notre modèle le plus récent et le plus avancé. Votre utilisation de cet alias de modèle gratuit doit être limitée à l'exécution d'activités de red-teaming autorisées.

Portée du Programme

Ce Programme s'intéresse principalement à la découverte de jailbreaks qui sont universels, en ce sens qu'ils peuvent révéler des informations nuisibles sur un large éventail de requêtes, et détaillés, en ce sens qu'ils révèlent des informations nuisibles très spécifiques liées aux menaces biologiques.

Pour souligner, nous nous intéressons aux jailbreaks qui extraient des informations répondant à un ensemble de questions biologiques nuisibles que nous partageons avec les participants acceptés dans le Programme.

Nous paierons jusqu'à 35 000 $ par jailbreak universel et nouveau identifié. Nous ne nous intéressons qu'aux jailbreaks qui révèlent des quantités substantielles d'informations nuisibles selon nos seuls critères et à notre seule discrétion. Nous attribuons des primes en utilisant une échelle mobile basée sur une grille d'évaluation interne qui détermine le degré de détail et d'exactitude des réponses.

Ce programme est limité aux jailbreaks sur nos Constitutional Classifiers. Pour les vulnérabilités techniques qui existent potentiellement sur nos Systèmes d'Information telles que les erreurs de configuration, les CSRF ou falsifications de requêtes intersites, les attaques d'élévation de privilèges, l'injection SQL, le XSS et les attaques de traversée de répertoires, veuillez vous référer à notre Politique de Divulgation Responsable et soumettre votre rapport ici.

Comment postuler

Vous pouvez postuler pour rejoindre notre Programme ici. Nous examinons les candidatures de manière continue. Si vous êtes accepté, vous recevrez une invitation via HackerOne. Si vous n'avez pas encore de compte HackerOne, veuillez en créer un avant de postuler au Programme afin que nous puissions vous inviter directement sur la plateforme. Vous devez utiliser votre alias de courriel @wearehackerone.com pour créer un compte Claude Console.

Directives de divulgation et obligations de confidentialité

Tous les participants au Programme sont tenus de signer un accord de non-divulgation pour protéger la confidentialité du Programme comme condition d'adhésion. Vous pouvez divulguer publiquement :

L'existence du Programme de Bug Bounty pour la Sécurité des Modèles d'Anthropic.
Votre participation en tant que participant sélectionné dans le Programme.

Vous ne pouvez pas divulguer sans autorisation expresse :

Tout jailbreak/vulnérabilité (même résolus) en dehors du Programme sans le consentement exprès d'Anthropic.
L'ensemble de questions de test.
Les détails sur les classificateurs et les mesures de sécurité.
Les informations sur les modèles testés.
L'identité des autres participants.
Toute autre information liée au Programme, sauf autorisation expresse ci-dessus.

Utilisation par Anthropic des données du Programme

Le participant accepte que toutes les données soumises à Anthropic, y compris ses produits et services, dans le cadre de ce Programme puissent être utilisées, stockées, partagées et/ou publiées par Anthropic indéfiniment dans le cadre de sa recherche en matière de sécurité, du développement de modèles et à des fins connexes sans autre obligation envers le participant.