Zweck

Wir glauben, dass externe Tests für den Aufbau eines sicheren KI-Ökosystems von entscheidender Bedeutung sind. Mit fortschreitenden Modellfähigkeiten könnten die Folgen von Jailbreaks zunehmend bedeutsam werden. Dieses laufende Programm baut auf unseren erfolgreichen früheren Bug-Bounty-Initiativen auf und verfolgt mehrere Hauptziele:

Identifizierung universeller Jailbreaks in unseren eingesetzten Systemen mit ASL-3-Schutzmaßnahmen
Kontinuierliche Bewertung der Wirksamkeit unserer Schutzmaßnahmen
Testen der Fähigkeit unserer Überwachungssysteme, Schwachstellen zu erkennen
Anreize für die Nutzung eines zentralen legitimen Kanals zur Meldung öffentlich verfügbarer Jailbreaks schaffen

Programmübersicht

Unser Model Safety Bug Bounty Program wird über HackerOne durchgeführt. Im Rahmen dieses Programms sind wir daran interessiert, universelle Jailbreaks zu finden, die unser Constitutional Classifiers-System überwinden. Wir führen auch gelegentlich gezielte Programme innerhalb unseres Gesamtprogramms durch, um die Robustheit von Klassifikatoren zu testen, die wir in Zukunft einführen möchten.

Ein universeller Jailbreak ist eine verallgemeinerte Technik, die zuverlässig richtlinienverletzende Antworten von einem Sprachmodell hervorruft, unabhängig vom Eingabeprompt. Im Gegensatz zu engen Jailbreaks, die von den Besonderheiten einer bestimmten Frage oder eines bestimmten Kontexts abhängen, funktionieren universelle Jailbreaks über eine breite Palette von Prompts und Szenarien hinweg.

Dies ist ein laufendes Programm. Nach der Aufnahme in das Programm auf HackerOne können Teilnehmer jederzeit Jailbreak-Berichte über dieses Programm einreichen. Um Ihre Red-Teaming-Bemühungen zu unterstützen, bieten wir Zugang zu einem kostenlosen Modellalias, der das Modell und die Klassifikatoren widerspiegelt, die auf unserem neuesten, fortschrittlichsten Modell live sind. Ihre Nutzung dieses kostenlosen Modellalias muss auf die Durchführung autorisierter Red-Teaming-Aktivitäten beschränkt sein.

Programmumfang

Dieses Programm ist hauptsächlich daran interessiert, Jailbreaks zu entdecken, die universell sind, in dem Sinne, dass sie schädliche Informationen über eine breite Palette von Anfragen hinweg offenlegen können, und detailliert sind, in dem Sinne, dass sie hochspezifische schädliche Informationen im Zusammenhang mit biologischen Bedrohungen offenlegen.

Um es zu betonen: Wir sind an Jailbreaks interessiert, die Informationen extrahieren, die eine Reihe von schädlichen biologischen Fragen beantworten, die wir mit akzeptierten Teilnehmern des Programms teilen.

Wir zahlen bis zu 35.000 $ pro neuartigem, universellem Jailbreak, der identifiziert wird. Wir sind nur an Jailbreaks interessiert, die erhebliche Mengen schädlicher Informationen basierend auf unseren alleinigen Kriterien und unserem Ermessen offenlegen. Wir vergeben Prämien nach einer gleitenden Skala, die auf einer internen Bewertungsrubrik basiert, die bestimmt, wie detailliert und genau die Antworten sind.

Dieses Programm ist auf Jailbreaks unserer Constitutional Classifiers ausgerichtet. Für technische Schwachstellen, die möglicherweise in unseren Informationssystemen existieren, wie Fehlkonfigurationen, CSRFs oder Cross-Site-Request-Forgeries, Privilege-Escalation-Angriffe, SQL-Injection, XSS und Directory-Traversal-Angriffe, verweisen Sie bitte auf unsere Responsible Disclosure Policy und reichen Sie Ihren Bericht hier ein.

Wie man sich bewirbt

Sie können sich hier für die Teilnahme an unserem Programm bewerben. Wir prüfen Bewerbungen fortlaufend. Bei Annahme erhalten Sie eine Einladung über HackerOne. Wenn Sie noch kein HackerOne-Konto haben, erstellen Sie bitte eines, bevor Sie sich für das Programm bewerben, damit wir Sie direkt auf der Plattform einladen können. Sie müssen Ihren @wearehackerone.com E-Mail-Alias verwenden, um ein Claude Console-Konto zu erstellen.

Offenlegungsrichtlinien & Vertraulichkeitsverpflichtungen

Alle Programmteilnehmer sind verpflichtet, als Bedingung für die Teilnahme eine Geheimhaltungsvereinbarung zu unterzeichnen, um die Vertraulichkeit des Programms zu schützen. Sie dürfen öffentlich offenlegen:

Die Existenz des Model Safety Bug Bounty Program von Anthropic.
Ihre Teilnahme als ausgewählter Teilnehmer am Programm.

Sie dürfen ohne ausdrückliche Genehmigung nicht offenlegen:

Jegliche Jailbreaks/Schwachstellen (auch behobene) außerhalb des Programms ohne ausdrückliche Zustimmung von Anthropic.
Das Testfragenset.
Details über die Klassifikatoren und Sicherheitsmaßnahmen.
Informationen über die getesteten Modelle.
Identität anderer Teilnehmer.
Alle anderen Informationen im Zusammenhang mit dem Programm, außer wie oben ausdrücklich erlaubt.

Verwendung von Daten aus dem Programm durch Anthropic

Der Teilnehmer erklärt sich damit einverstanden, dass alle Daten, die im Zusammenhang mit diesem Programm an Anthropic, einschließlich seiner Produkte und Dienstleistungen, übermittelt werden, von Anthropic unbegrenzt zur Förderung seiner Sicherheitsforschung, Modellentwicklung und damit verbundener Zwecke verwendet, gespeichert, geteilt und/oder veröffentlicht werden können, ohne weitere Verpflichtung gegenüber dem Teilnehmer.

Verwandte Artikel

Meldung, Blockierung und Entfernung von Inhalten aus Claude

Verantwortungsvoller Einsatz der Modelle von Anthropic: Richtlinien für Organisationen, die Minderjährige betreuen