Lewati ke konten utama

Program Bug Bounty Keamanan Model

Diperbarui minggu ini

Tujuan

Kami percaya bahwa pengujian eksternal sangat penting untuk membangun ekosistem AI yang aman. Seiring dengan kemajuan kemampuan model, konsekuensi dari jailbreak bisa menjadi semakin signifikan. Program berkelanjutan ini dibangun atas dasar inisiatif bug bounty kami yang sukses sebelumnya dengan beberapa tujuan utama:

  1. Mengidentifikasi jailbreak universal dalam sistem yang kami deploy dengan perlindungan ASL-3

  2. Memberikan penilaian berkelanjutan terhadap efektivitas perlindungan kami

  3. Menguji kemampuan sistem monitoring kami untuk mendeteksi kerentanan

  4. Mendorong penggunaan satu saluran resmi terpusat untuk melaporkan jailbreak yang tersedia untuk publik

Gambaran Program

Program Model Safety Bug Bounty kami dijalankan melalui HackerOne. Melalui Program ini, kami tertarik untuk menemukan jailbreak universal yang melampaui sistem Constitutional Classifiers kami. Kami juga kadang-kadang menjalankan program yang ditargetkan dalam Program keseluruhan kami untuk menguji ketangguhan classifier yang kami harapkan untuk diluncurkan di masa depan.

Jailbreak universal adalah teknik yang digeneralisasi yang secara andal membangkitkan respons yang melanggar kebijakan dari model bahasa, terlepas dari prompt input. Berbeda dengan jailbreak sempit, yang bergantung pada spesifik pertanyaan atau konteks tertentu, jailbreak universal bekerja di berbagai prompt dan skenario.

Ini adalah Program berkelanjutan. Setelah diterima ke Program di HackerOne, peserta dapat mengirimkan laporan jailbreak kapan saja melalui Program ini. Untuk membantu upaya red-teaming Anda, kami menyediakan akses ke alias model gratis yang mencerminkan model dan classifier yang aktif di model terbaru dan paling canggih kami. Penggunaan Anda terhadap alias model gratis ini harus terbatas pada melakukan aktivitas red-teaming yang berwenang.

Ruang Lingkup Program

Program ini terutama tertarik untuk menemukan jailbreak yang universal, dalam hal mereka dapat mengungkapkan informasi berbahaya di berbagai pertanyaan, dan terperinci, dalam hal mereka mengungkapkan informasi berbahaya yang sangat spesifik terkait ancaman biologis.

Untuk menekankan, kami tertarik pada jailbreak yang mengekstrak informasi yang menjawab serangkaian pertanyaan biologis berbahaya yang kami bagikan dengan peserta yang diterima dalam Program.

Kami akan membayar hingga $35.000 per jailbreak universal yang baru diidentifikasi. Kami hanya tertarik pada jailbreak yang mengungkapkan jumlah informasi berbahaya yang substansial berdasarkan kriteria dan kebijakan kami sendiri. Kami memberikan bounty menggunakan skala geser berdasarkan rubrik penilaian internal yang menentukan seberapa terperinci dan akurat respons tersebut.

Program ini dibatasi pada jailbreak di Constitutional Classifiers kami. Untuk kerentanan teknis yang berpotensi ada di Sistem Informasi kami seperti salah konfigurasi, CSRF atau cross site request forgeries, serangan privilege escalation, SQL Injection, XSS, dan directory traversal attacks, silakan lihat Kebijakan Pengungkapan Bertanggung Jawab kami dan kirimkan laporan Anda di sini.

Cara Mendaftar

Anda dapat mendaftar untuk bergabung dengan Program kami di sini. Kami meninjau aplikasi secara bergulir. Jika diterima, Anda akan menerima undangan melalui HackerOne. Jika Anda belum memiliki akun HackerOne, silakan buat satu sebelum mendaftar ke Program sehingga kami dapat mengundang Anda langsung di platform. Anda harus menggunakan alias email @wearehackerone.com Anda untuk membuat akun Claude Console.

Pedoman Pengungkapan & Kewajiban Kerahasiaan

Semua peserta Program diharuskan menandatangani perjanjian kerahasiaan untuk melindungi kerahasiaan Program sebagai syarat untuk bergabung. Anda dapat mengungkapkan secara publik:

  • Keberadaan Program Model Safety Bug Bounty Anthropic.

  • Partisipasi Anda sebagai peserta terpilih dalam Program.

Anda tidak boleh mengungkapkan tanpa izin ekspres:

  • Jailbreak/kerentanan apa pun (bahkan yang sudah diselesaikan) di luar Program tanpa persetujuan ekspres dari Anthropic.

  • Kumpulan pertanyaan pengujian.

  • Detail tentang classifier dan mitigasi keamanan.

  • Informasi tentang model yang diuji.

  • Identitas peserta lain.

  • Informasi lain apa pun yang terkait dengan Program, kecuali sebagaimana secara ekspres diizinkan di atas.

Penggunaan Data Anthropic dari Program

Peserta setuju bahwa semua data yang diajukan ke Anthropic, termasuk produk dan layanannya, sehubungan dengan Program ini dapat digunakan, disimpan, dibagikan, dan/atau dipublikasikan oleh Anthropic tanpa batas waktu untuk memajukan penelitian keamanannya, pengembangan model, dan tujuan terkait tanpa kewajiban lebih lanjut kepada Peserta.

Apakah pertanyaan Anda terjawab?