Zweck
Wir sind der Überzeugung, dass externe Tests für den Aufbau eines sicheren KI-Ökosystems entscheidend sind. Mit fortschreitenden Modellkapazitäten könnten die Folgen von Jailbreaks zunehmend bedeutsam werden. Dieses laufende Programm baut auf unseren erfolgreichen früheren Bug-Bounty-Initiativen mit mehreren Schlüsselobjektiven auf:
Identifizierung universeller Jailbreaks in unseren bereitgestellten Systemen mit ASL-3-Schutzmaßnahmen
Kontinuierliche Bewertung der Wirksamkeit unserer Schutzmaßnahmen
Prüfung der Fähigkeit unserer Überwachungssysteme, Schwachstellen zu erkennen
Anreize für die Nutzung eines zentralen legitimen Kanals zur Meldung öffentlich verfügbarer Jailbreaks
Programmübersicht
Unser Model Safety Bug Bounty Program wird über HackerOne durchgeführt. Durch dieses Programm interessieren wir uns für die Suche nach universellen Jailbreaks, die unser Constitutional Classifiers-System überwinden. Wir führen auch gelegentlich gezielte Programme innerhalb unseres Gesamtprogramms durch, um die Robustheit von Klassifikatoren zu testen, die wir in Zukunft starten möchten.
Ein universeller Jailbreak ist eine verallgemeinerte Technik, die zuverlässig richtlinienwidrige Antworten von einem Sprachmodell hervorruft, unabhängig von der Eingabeaufforderung. Im Gegensatz zu engen Jailbreaks, die von den Besonderheiten einer bestimmten Frage oder eines bestimmten Kontexts abhängen, funktionieren universelle Jailbreaks über eine breite Palette von Aufforderungen und Szenarien hinweg.
Dies ist ein laufendes Programm. Nach der Annahme in das Programm auf HackerOne können Teilnehmer jederzeit Jailbreak-Berichte über dieses Programm einreichen. Um Ihre Red-Teaming-Bemühungen zu unterstützen, stellen wir Zugriff auf einen kostenlosen Modell-Alias bereit, der das Modell und die Klassifikatoren widerspiegelt, die auf unserem neuesten, fortschrittlichsten Modell live sind. Ihre Nutzung dieses kostenlosen Modell-Alias muss auf die Durchführung autorisierter Red-Teaming-Aktivitäten beschränkt sein.
Programmumfang
Dieses Programm interessiert sich in erster Linie für die Entdeckung von Jailbreaks, die universell sind, da sie schädliche Informationen über eine breite Palette von Abfragen hinweg offenbaren können, und detailliert, da sie hochspezifische schädliche Informationen im Zusammenhang mit biologischen Bedrohungen offenbaren.
Um dies zu betonen, interessieren wir uns für Jailbreaks, die Informationen extrahieren, die eine Reihe von schädlichen biologischen Fragen beantworten, die wir mit akzeptierten Teilnehmern des Programms teilen.
Wir zahlen bis zu 35.000 USD pro identifiziertem neuartigem, universellem Jailbreak. Wir interessieren uns nur für Jailbreaks, die auf der Grundlage unserer alleinigen Kriterien und Ermessens erhebliche Mengen schädlicher Informationen offenbaren. Wir vergeben Prämien nach einer gleitenden Skala basierend auf einer internen Bewertungsrubrik, die bestimmt, wie detailliert und genau die Antworten sind.
Dieses Programm ist auf Jailbreaks auf unseren Constitutional Classifiers beschränkt. Für technische Schwachstellen, die möglicherweise in unseren Informationssystemen wie Fehlkonfigurationen, CSRFs oder Cross-Site-Request-Forgeries, Privilege-Escalation-Attacken, SQL-Injection, XSS und Directory-Traversal-Attacken vorhanden sind, beachten Sie bitte unsere Responsible Disclosure Policy und reichen Sie Ihren Bericht hier ein.
So bewerben Sie sich
Sie können sich hier für unser Programm bewerben. Wir überprüfen Bewerbungen laufend. Nach Annahme erhalten Sie eine Einladung über HackerOne. Falls Sie noch kein HackerOne-Konto haben, erstellen Sie bitte eines, bevor Sie sich für das Programm bewerben, damit wir Sie direkt auf der Plattform einladen können. Sie müssen Ihren @wearehackerone.com-E-Mail-Alias verwenden, um ein Claude Console-Konto zu erstellen.
Offenlegungsrichtlinien & Vertraulichkeitsverpflichtungen
Alle Programmteilnehmer müssen eine Geheimhaltungsvereinbarung unterzeichnen, um die Programmvertraulichkeit als Bedingung für den Beitritt zu schützen. Sie dürfen öffentlich offenlegen:
Die Existenz von Anthropics Model Safety Bug Bounty Program.
Ihre Teilnahme als ausgewählter Teilnehmer im Programm.
Sie dürfen ohne ausdrückliche Genehmigung nicht offenlegen:
Jegliche Jailbreaks/Schwachstellen (auch behobene) außerhalb des Programms ohne ausdrückliche Zustimmung von Anthropic.
Die Test-Fragensatz.
Details zu den Klassifikatoren und Sicherheitsmaßnahmen.
Informationen über die getesteten Modelle.
Identität anderer Teilnehmer.
Alle anderen Informationen im Zusammenhang mit dem Programm, außer wie oben ausdrücklich gestattet.
Anthropics Verwendung von Daten aus dem Programm
Der Teilnehmer erklärt sich damit einverstanden, dass alle an Anthropic eingereichten Daten, einschließlich seiner Produkte und Dienstleistungen, im Zusammenhang mit diesem Programm von Anthropic unbegrenzt verwendet, gespeichert, geteilt und/oder veröffentlicht werden können, um seine Sicherheitsforschung, Modellentwicklung und verwandte Zwecke zu fördern, ohne weitere Verpflichtung gegenüber dem Teilnehmer.
