Nossa Abordagem para a Segurança do Usuário

A segurança do usuário é fundamental para a missão da Anthropic de criar sistemas de IA confiáveis, interpretáveis e controláveis. À medida que lançamos novas formas para as pessoas interagirem com Claude, também esperamos ver novos tipos de possíveis danos se materializarem, seja através da geração de desinformação, conteúdo objetável, discurso de ódio ou outros usos indevidos. Estamos investindo ativamente e experimentando recursos de segurança adicionais para complementar nossos esforços existentes de segurança do modelo e estamos trabalhando para fornecer ferramentas úteis para um público amplo, enquanto também fazemos o nosso melhor para mitigar danos. O lançamento de novos produtos em beta aberto nos permite experimentar, iterar e ouvir seus comentários. Aqui estão alguns dos recursos de segurança que introduzimos:

Modelos de detecção que sinalizam conteúdo potencialmente prejudicial com base em nossa Política de Uso.
Filtros de segurança em prompts, que podem bloquear respostas do modelo quando nossos modelos de detecção sinalizam conteúdo como prejudicial.
Filtros de segurança aprimorados, que nos permitem aumentar a sensibilidade de nossos modelos de detecção. Podemos aplicar temporariamente filtros de segurança aprimorados a usuários que violam repetidamente nossas políticas e remover esses controles após um período sem violações ou com poucas violações.

Esses recursos não são à prova de falhas, e podemos cometer erros através de falsos positivos ou falsos negativos. Seus comentários sobre essas medidas e como as explicamos aos usuários desempenharão um papel fundamental em nos ajudar a melhorar esses sistemas de segurança, e encorajamos você a entrar em contato conosco em [email protected] com qualquer comentário que você possa ter. Para saber mais, leia sobre nossas visões principais sobre segurança de IA.