Scopo

Riteniamo che i test esterni siano cruciali per costruire un ecosistema di IA sicuro. Con l'avanzamento delle capacità dei modelli, le conseguenze dei jailbreak potrebbero diventare sempre più significative. Questo Programma in corso si basa sui nostri precedenti iniziative di bug bounty di successo con diversi obiettivi chiave:

Identificare jailbreak universali nei nostri sistemi distribuiti con protezioni ASL-3
Fornire una valutazione continua dell'efficacia delle nostre misure di sicurezza
Testare la capacità dei nostri sistemi di monitoraggio di rilevare vulnerabilità
Incentivare l'uso di un unico canale legittimo centrale per segnalare jailbreak pubblicamente disponibili

Panoramica del Programma

Il nostro Model Safety Bug Bounty Program è gestito tramite HackerOne. Attraverso questo Programma, siamo interessati a trovare jailbreak universali che superino il nostro sistema Constitutional Classifiers. Occasionalmente eseguiamo anche programmi mirati all'interno del nostro Programma complessivo per testare la robustezza dei classificatori che speriamo di lanciare in futuro.

Un jailbreak universale è una tecnica generalizzata che estrae in modo affidabile risposte che violano le politiche da un modello di linguaggio, indipendentemente dal prompt di input. A differenza dei jailbreak ristretti, che dipendono dalle specifiche di una particolare domanda o contesto, i jailbreak universali funzionano su un'ampia gamma di prompt e scenari.

Questo è un Programma in corso. Una volta accettati nel Programma su HackerOne, i partecipanti possono inviare rapporti di jailbreak in qualsiasi momento attraverso questo Programma. Per aiutare i vostri sforzi di red-teaming, forniamo accesso a un alias di modello gratuito che riflette il modello e i classificatori attivi sul nostro modello più recente e avanzato. L'uso di questo alias di modello gratuito deve essere limitato all'esecuzione di attività di red-teaming autorizzate.

Ambito del Programma

Questo Programma è principalmente interessato a scoprire jailbreak che siano universali, in quanto possono rivelare informazioni dannose su un'ampia gamma di query, e dettagliati, in quanto rivelano informazioni dannose altamente specifiche relative a minacce biologiche.

Per sottolineare, siamo interessati a jailbreak che estraggono informazioni che rispondono a un insieme di domande biologiche dannose che condividiamo con i partecipanti accettati nel Programma.

Pagheremo fino a $35.000 per ogni jailbreak universale e nuovo identificato. Siamo interessati solo a jailbreak che rivelano quantità sostanziali di informazioni dannose in base ai nostri criteri e alla nostra discrezione esclusiva. Assegniamo i bounty utilizzando una scala mobile basata su una rubrica di valutazione interna che determina quanto siano dettagliate e accurate le risposte.

Questo programma è limitato ai jailbreak sui nostri Constitutional Classifiers. Per le vulnerabilità tecniche che potenzialmente esistono sui nostri Sistemi Informativi come misconfigurazioni, CSRF o cross site request forgeries, attacchi di escalation dei privilegi, SQL Injection, XSS e attacchi di directory traversal, si prega di fare riferimento alla nostra Responsible Disclosure Policy e inviare la vostra segnalazione qui.

Come Candidarsi

Potete candidarvi per partecipare al nostro Programma qui. Esaminiamo le candidature su base continuativa. Se accettati, riceverete un invito tramite HackerOne. Se non avete già un account HackerOne, si prega di crearne uno prima di candidarvi al Programma in modo che possiamo invitarvi direttamente sulla piattaforma. Dovete utilizzare il vostro alias email @wearehackerone.com per creare un account Claude Console.

Linee Guida sulla Divulgazione e Obblighi di Riservatezza

Tutti i partecipanti al Programma sono tenuti a firmare un accordo di non divulgazione per proteggere la riservatezza del Programma come condizione per l'adesione. Potete divulgare pubblicamente:

L'esistenza del Model Safety Bug Bounty Program di Anthropic.
La vostra partecipazione come partecipante selezionato nel Programma.

Non potete divulgare senza espressa autorizzazione:

Alcun jailbreak/vulnerabilità (anche quelli risolti) al di fuori del Programma senza espressa autorizzazione da Anthropic.
L'insieme delle domande di test.
Dettagli sui classificatori e sulle mitigazioni di sicurezza.
Informazioni sui modelli in fase di test.
Identità di altri partecipanti.
Qualsiasi altra informazione relativa al Programma, eccetto come espressamente consentito sopra.

Uso dei Dati del Programma da Parte di Anthropic

Il Partecipante accetta che tutti i dati inviati ad Anthropic, inclusi i suoi prodotti e servizi, in connessione con questo Programma possono essere utilizzati, archiviati, condivisi e/o pubblicati da Anthropic indefinitamente al fine di promuovere la sua ricerca sulla sicurezza, lo sviluppo dei modelli e scopi correlati senza ulteriori obblighi nei confronti del Partecipante.