Pendekatan Kami terhadap Keamanan Pengguna

Keamanan pengguna adalah inti dari misi Anthropic untuk menciptakan sistem AI yang dapat diandalkan, dapat diinterpretasikan, dan dapat diarahkan. Saat kami meluncurkan cara-cara baru bagi orang untuk berinteraksi dengan Claude, kami juga mengharapkan untuk melihat jenis-jenis potensi bahaya baru muncul, baik melalui pembuatan misinformasi, konten yang tidak dapat diterima, ujaran kebencian atau penyalahgunaan lainnya. Kami secara aktif berinvestasi dalam dan bereksperimen dengan fitur keamanan tambahan untuk melengkapi upaya keamanan model kami yang ada dan bekerja untuk menyediakan alat yang bermanfaat kepada audiens yang luas sambil juga melakukan yang terbaik untuk mengurangi bahaya. Meluncurkan produk baru dalam beta terbuka memungkinkan kami untuk bereksperimen, melakukan iterasi dan mendengarkan umpan balik Anda. Berikut adalah beberapa fitur keamanan yang telah kami perkenalkan:

Model deteksi yang menandai konten yang berpotensi berbahaya berdasarkan Kebijakan Penggunaan kami.
Filter keamanan pada prompt, yang dapat memblokir respons dari model ketika model deteksi kami menandai konten sebagai berbahaya.
Filter keamanan yang ditingkatkan, yang memungkinkan kami untuk meningkatkan sensitivitas model deteksi kami. Kami dapat sementara menerapkan filter keamanan yang ditingkatkan kepada pengguna yang berulang kali melanggar kebijakan kami, dan menghapus kontrol ini setelah periode tanpa atau sedikit pelanggaran.

Fitur-fitur ini bukan jaminan, dan kami mungkin membuat kesalahan melalui positif palsu atau negatif palsu. Umpan balik Anda tentang langkah-langkah ini dan bagaimana kami menjelaskannya kepada pengguna akan memainkan peran kunci dalam membantu kami meningkatkan sistem keamanan ini, dan kami mendorong Anda untuk menghubungi kami di [email protected] dengan umpan balik apa pun yang mungkin Anda miliki. Untuk mempelajari lebih lanjut, baca tentang pandangan inti kami tentang keamanan AI.