Lewati ke konten utama

Memahami Filter Keamanan API Sonnet 4.5

Diperbarui minggu ini

Claude Sonnet 4.5 mencakup perlindungan AI Safety Level 3 (ASL-3) baru yang dirancang untuk mencegah penyalahgunaan terkait senjata kimia, biologi, radiologi, dan nuklir (CBRN). Langkah-langkah keamanan ini menggunakan Constitutional Classifiers yang memantau input dan output untuk memblokir kategori konten berbahaya yang sempit.

Mengapa permintaan API saya diblokir?

Filter keamanan Sonnet 4.5 difokuskan secara sempit pada pencegahan bantuan dengan tugas-tugas terkait senjata CBRN. Jika permintaan Anda diblokir, filter mendeteksi konten yang cocok dengan pola yang terkait dengan ancaman spesifik ini.

Filter-filter ini masih dalam tahap penyempurnaan. Seperti halnya sistem otomatis apa pun, positif palsu dapat terjadi—artinya permintaan yang sah mungkin kadang-kadang ditandai secara tidak benar. Kami secara aktif bekerja untuk meningkatkan presisi pengklasifikasi ini guna meminimalkan gangguan sambil mempertahankan keamanan.

Apa yang dapat Anda lakukan

Jika permintaan API Anda diblokir, berikut adalah langkah-langkah yang dapat Anda ambil:

Hindari pola yang memicu positif palsu

Pengklasifikasi sensitif terhadap pola tertentu yang mungkin menyerupai upaya jailbreak atau teknik obfuskasi:

  • Hindari konten seperti cipher: String yang dikodekan Base64, hash commit git, urutan heksadesimal, dan data terenkripsi lainnya dapat memicu filter. Jika Anda perlu menyertakan konten seperti itu, pertimbangkan apakah itu penting untuk kasus penggunaan Anda.

  • Sederhanakan instruksi sistem: Prompt sistem yang terlalu panjang atau kompleks yang mencakup logika kondisional rumit mungkin menyerupai upaya untuk mengaburkan perilaku. Jaga instruksi sistem tetap jelas dan langsung.

  • Berhati-hatilah dengan konten terkait biologi: Jika aplikasi Anda tidak secara khusus memerlukan informasi biologi atau kimia, pertimbangkan untuk memformulasi ulang permintaan guna menghindari topik-topik ini jika memungkinkan.

Beralih ke Sonnet 4

Gunakan Sonnet 4 alih-alih Sonnet 4.5 dalam panggilan API Anda. Sonnet 4 menggunakan langkah-langkah keamanan yang berbeda dan mungkin dapat memproses permintaan Anda dengan berhasil.

Implementasikan logika fallback

Bangun penanganan kesalahan ke dalam aplikasi Anda yang dapat:

  • Mendeteksi ketika permintaan diblokir oleh filter keamanan.

  • Secara otomatis mencoba kembali dengan Sonnet 4 sebagai fallback.

  • Mencatat insiden untuk ditinjau guna mengidentifikasi pola dalam positif palsu.

Berikan umpan balik

Jika Anda percaya permintaan Anda diblokir secara tidak benar, hubungi tim dukungan API kami. Umpan balik Anda membantu kami meningkatkan akurasi filter dan mengurangi positif palsu untuk kasus penggunaan yang sah.

Mengapa filter baru?

Seiring dengan semakin canggihnya model AI, mereka memerlukan perlindungan yang lebih kuat terhadap potensi penyalahgunaan. Langkah-langkah penerapan ASL-3 Sonnet 4.5 adalah bagian dari Kebijakan Penskalaan Bertanggung Jawab Anthropic, yang memastikan bahwa model yang semakin canggih memiliki perlindungan yang sesuai.

Filter dirancang khusus untuk mencegah alur kerja CBRN yang diperpanjang dan end-to-end yang dapat menimbulkan risiko bencana. Mereka bukan dimaksudkan untuk memblokir diskusi ilmiah umum, konten pendidikan, atau informasi yang tersedia secara umum.

Untuk peneliti dan aplikasi dual-use

Jika Anda membangun aplikasi untuk penelitian ilmiah atau bidang teknologi dual-use dan memerlukan akses untuk tujuan yang sah, kami telah menetapkan sistem kontrol akses untuk pengguna yang telah diverifikasi. Hubungi tim dukungan API kami untuk mempelajari lebih lanjut tentang pengecualian.

Apakah pertanyaan Anda terjawab?