Zweck

Wir sind der Überzeugung, dass externe Tests für den Aufbau eines sicheren KI-Ökosystems entscheidend sind. Mit fortschreitenden Modellkapazitäten könnten die Folgen von Jailbreaks zunehmend bedeutsam werden. Dieses laufende Programm baut auf unseren erfolgreichen früheren Bug-Bounty-Initiativen mit mehreren Schlüsselobjektiven auf:

Identifizierung universeller Jailbreaks in unseren bereitgestellten Systemen mit ASL-3-Schutzmaßnahmen
Kontinuierliche Bewertung der Wirksamkeit unserer Schutzmaßnahmen
Prüfung der Fähigkeit unserer Überwachungssysteme, Schwachstellen zu erkennen
Anreize für die Nutzung eines zentralen legitimen Kanals zur Meldung öffentlich verfügbarer Jailbreaks

Programmübersicht

Unser Model Safety Bug Bounty Program wird über HackerOne durchgeführt. Durch dieses Programm interessieren wir uns für die Suche nach universellen Jailbreaks, die unser Constitutional Classifiers-System überwinden. Wir führen auch gelegentlich gezielte Programme innerhalb unseres Gesamtprogramms durch, um die Robustheit von Klassifikatoren zu testen, die wir in Zukunft starten möchten.

Ein universeller Jailbreak ist eine verallgemeinerte Technik, die zuverlässig richtlinienverletzende Antworten von einem Sprachmodell hervorruft, unabhängig von der Eingabeaufforderung. Im Gegensatz zu engen Jailbreaks, die von den Besonderheiten einer bestimmten Frage oder eines bestimmten Kontexts abhängen, funktionieren universelle Jailbreaks über eine breite Palette von Aufforderungen und Szenarien hinweg.

Dies ist ein laufendes Programm. Nach der Annahme in das Programm auf HackerOne können Teilnehmer jederzeit Jailbreak-Berichte über dieses Programm einreichen. Um Ihre Red-Teaming-Bemühungen zu unterstützen, bieten wir Zugriff auf einen kostenlosen Modell-Alias, der das Modell und die Klassifikatoren widerspiegelt, die auf unserem neuesten, fortschrittlichsten Modell live sind. Ihre Nutzung dieses kostenlosen Modell-Alias muss auf die Durchführung autorisierter Red-Teaming-Aktivitäten beschränkt sein.

Programmumfang

Dieses Programm interessiert sich in erster Linie für die Entdeckung von Jailbreaks, die universell sind, da sie schädliche Informationen über eine breite Palette von Abfragen hinweg offenbaren können, und detailliert sind, da sie hochspezifische schädliche Informationen im Zusammenhang mit biologischen Bedrohungen offenbaren.

Um dies zu betonen, interessieren wir uns für Jailbreaks, die Informationen extrahieren, die eine Reihe von schädlichen biologischen Fragen beantworten, die wir mit akzeptierten Teilnehmern des Programms teilen.

Wir zahlen bis zu 35.000 USD pro identifiziertem neuem, universellen Jailbreak. Wir interessieren uns nur für Jailbreaks, die basierend auf unseren alleinigen Kriterien und unserem Ermessen erhebliche Mengen schädlicher Informationen offenbaren. Wir vergeben Prämien nach einer gleitenden Skala basierend auf einer internen Bewertungsrubrik, die bestimmt, wie detailliert und genau die Antworten sind.

Dieses Programm ist auf Jailbreaks auf unseren Constitutional Classifiers beschränkt. Für technische Schwachstellen, die möglicherweise in unseren Informationssystemen wie Fehlkonfigurationen, CSRFs oder Cross-Site-Request-Forgeries, Privilege-Escalation-Attacken, SQL-Injection, XSS und Directory-Traversal-Attacken vorhanden sind, beachten Sie bitte unsere Responsible Disclosure Policy und reichen Sie Ihren Bericht hier ein.

Wie man sich bewirbt

Sie können sich hier bewerben, um unserem Programm beizutreten. Wir überprüfen Bewerbungen auf laufender Basis. Bei Annahme erhalten Sie eine Einladung über HackerOne. Falls Sie noch kein HackerOne-Konto haben, erstellen Sie bitte eines, bevor Sie sich für das Programm bewerben, damit wir Sie direkt auf der Plattform einladen können. Sie müssen Ihren @wearehackerone.com-E-Mail-Alias verwenden, um ein Claude Console-Konto zu erstellen.

Offenlegungsrichtlinien & Vertraulichkeitsverpflichtungen

Alle Programmteilnehmer müssen eine Geheimhaltungsvereinbarung unterzeichnen, um die Programmvertraulichkeit als Bedingung für den Beitritt zu schützen. Sie dürfen öffentlich offenlegen:

Die Existenz von Anthropics Model Safety Bug Bounty Program.
Ihre Teilnahme als ausgewählter Teilnehmer im Programm.

Sie dürfen ohne ausdrückliche Genehmigung nicht offenlegen:

Jegliche Jailbreaks/Schwachstellen (auch behobene) außerhalb des Programms ohne ausdrückliche Zustimmung von Anthropic.
Die Test-Fragensatz.
Details zu den Klassifikatoren und Sicherheitsmaßnahmen.
Informationen über die getesteten Modelle.
Identität anderer Teilnehmer.
Alle anderen Informationen im Zusammenhang mit dem Programm, außer wie oben ausdrücklich gestattet.

Anthropics Verwendung von Daten aus dem Programm

Der Teilnehmer erklärt sich damit einverstanden, dass alle an Anthropic eingereichten Daten, einschließlich seiner Produkte und Dienstleistungen, im Zusammenhang mit diesem Programm von Anthropic unbegrenzt verwendet, gespeichert, geteilt und/oder veröffentlicht werden dürfen, um seine Sicherheitsforschung, Modellentwicklung und verwandte Zwecke zu fördern, ohne weitere Verpflichtung gegenüber dem Teilnehmer.

Verwandte Artikel

Meldung, Blockierung und Entfernung von Inhalten aus Claude

Was ist das External Researcher Access Program?

Meldung, Blockierung und Entfernung von Inhalten aus Claude

Anthropic's AI for Science Program