Objectif

Nous croyons que les tests externes sont cruciaux pour construire un écosystème d'IA sûr. À mesure que les capacités des modèles progressent, les conséquences des contournements pourraient devenir de plus en plus importantes. Ce Programme en cours s'appuie sur nos précédentes initiatives de prime aux bogues couronnées de succès avec plusieurs objectifs clés :

Identifier les contournements universels dans nos systèmes déployés avec les protections ASL-3
Fournir une évaluation continue de l'efficacité de nos mesures de protection
Tester la capacité de nos systèmes de surveillance à détecter les vulnérabilités
Inciter l'utilisation d'un canal légitime central pour signaler les contournements disponibles publiquement

Aperçu du Programme

Notre Programme de Prime aux Bogues de Sécurité des Modèles est géré via HackerOne. À travers ce Programme, nous nous intéressons à trouver des contournements universels qui dépassent notre système de Classificateurs Constitutionnels. Nous organisons également occasionnellement des programmes ciblés dans le cadre de notre Programme global pour tester la robustesse des classificateurs que nous espérons lancer à l'avenir.

Un contournement universel est une technique généralisée qui suscite de manière fiable des réponses violant les politiques d'un modèle de langage, indépendamment de l'invite d'entrée. Contrairement aux contournements étroits, qui dépendent des spécificités d'une question ou d'un contexte particulier, les contournements universels fonctionnent sur une large gamme d'invites et de scénarios.

Il s'agit d'un Programme en cours. Une fois acceptés dans le Programme sur HackerOne, les participants peuvent soumettre des rapports de contournement à tout moment via ce Programme. Pour aider vos efforts de test d'intrusion, nous fournissons l'accès à un alias de modèle gratuit qui reflète le modèle et les classificateurs en direct sur notre modèle le plus récent et le plus avancé. Votre utilisation de cet alias de modèle gratuit doit être limitée à l'exécution d'activités de test d'intrusion autorisées.

Portée du Programme

Ce Programme s'intéresse principalement à découvrir des contournements qui sont universels, en ce qu'ils peuvent révéler des informations nuisibles sur une large gamme de requêtes, et détaillés, en ce qu'ils révèlent des informations nuisibles très spécifiques liées aux menaces biologiques.

Pour souligner, nous nous intéressons aux contournements qui extraient des informations qui répondent à un ensemble de questions biologiques nuisibles que nous partageons avec les participants acceptés dans le Programme.

Nous paierons jusqu'à 35 000 $ par contournement universel nouveau identifié. Nous ne nous intéressons qu'aux contournements qui révèlent des quantités substantielles d'informations nuisibles selon nos seuls critères et à notre discrétion. Nous attribuons les primes en utilisant une échelle mobile basée sur une grille d'évaluation interne qui détermine à quel point les réponses sont détaillées et précises.

Ce programme est limité aux contournements sur nos Classificateurs Constitutionnels. Pour les vulnérabilités techniques qui pourraient exister sur nos Systèmes d'Information telles que les mauvaises configurations, les CSRF ou falsifications de requêtes inter-sites, les attaques d'escalade de privilèges, l'injection SQL, XSS, et les attaques de traversée de répertoires, veuillez vous référer à notre Politique de Divulgation Responsable et soumettre votre rapport ici.

Comment Postuler

Vous pouvez postuler pour rejoindre notre Programme ici. Nous examinons les candidatures de manière continue. Si vous êtes accepté, vous recevrez une invitation via HackerOne. Si vous n'avez pas déjà un compte HackerOne, veuillez en créer un avant de postuler au Programme afin que nous puissions vous inviter directement sur la plateforme. Vous devez utiliser votre alias email @wearehackerone.com pour créer un compte Console/API Anthropic.

Directives de Divulgation et Obligations de Confidentialité

Tous les participants au Programme sont tenus de signer un accord de non-divulgation pour protéger la confidentialité du Programme comme condition pour rejoindre. Vous pouvez divulguer publiquement :

L'existence du Programme de Prime aux Bogues de Sécurité des Modèles d'Anthropic
Votre participation en tant que participant sélectionné dans le Programme

Vous ne pouvez pas divulguer sans permission expresse :

Tout contournement/vulnérabilité (même résolus) en dehors du Programme sans consentement exprès d'Anthropic
L'ensemble de questions de test
Les détails sur les classificateurs et les mesures de sécurité
Les informations sur les modèles testés
L'identité des autres participants
Toute autre information liée au Programme, sauf autorisation expresse ci-dessus

Utilisation par Anthropic des Données du Programme

Le Participant accepte que toutes les données soumises à Anthropic, y compris ses produits et services, en relation avec ce Programme puissent être utilisées, stockées, partagées et/ou publiées par Anthropic indéfiniment dans le cadre de sa recherche en sécurité, du développement de modèles, et à des fins connexes sans obligation supplémentaire envers le Participant.