Ir para conteúdo principal

Compreendendo os Filtros de Segurança do Sonnet 4.5

Atualizado esta semana

Claude Sonnet 4.5 inclui proteções de Nível de Segurança de IA 3 (ASL-3) projetadas para prevenir o uso indevido relacionado a armas químicas, biológicas, radiológicas e nucleares (CBRN). Essas medidas de segurança incluem filtros chamados classificadores que detectam entradas e saídas potencialmente perigosas.

Por que minha mensagem foi bloqueada?

Os filtros de segurança do Sonnet 4.5 têm o objetivo de prevenir assistência em tarefas relacionadas a armas CBRN (Químicas, Biológicas, Radiológicas e Nucleares). Se você recebeu uma mensagem de erro, os filtros detectaram conteúdo que correspondia a padrões associados a essas ameaças específicas.

Esses filtros ainda estão sendo refinados e podem ocasionalmente sinalizar conteúdo normal de forma incorreta. Como em qualquer sistema automatizado, falsos positivos podem ocorrer — o que significa que consultas legítimas podem ser sinalizadas incorretamente ocasionalmente. Estamos trabalhando ativamente para melhorar a precisão desses classificadores para minimizar interrupções mantendo a segurança.

O que você pode fazer

Se você acredita que sua mensagem está sendo bloqueada em resposta a um uso legítimo, você tem várias opções:

Evite padrões que acionem falsos positivos

Os classificadores são sensíveis a certos padrões que podem se assemelhar a tentativas de jailbreak ou técnicas de ofuscação:

  • Evite conteúdo semelhante a cifra: Strings codificadas em Base64, hashes de commit git, sequências hexadecimais e outros dados codificados podem acionar os filtros. Se você precisar incluir tal conteúdo, inclua conteúdo ao seu redor para explicar como e por que é usado.

  • Simplifique as instruções: Prompts de sistema excessivamente longos ou complexos que incluem lógica condicional intrincada podem se assemelhar a tentativas de ofuscar o comportamento. Mantenha os prompts claros e diretos.

  • Tenha cuidado com conteúdo relacionado à biologia: Se sua aplicação não exigir especificamente informações biológicas ou químicas, considere reformular as solicitações para evitar esses tópicos quando possível.

Outras opções

  • Continue com Claude Sonnet 4: Você pode mudar para Claude Sonnet 4 para o restante da conversa, que usa medidas de segurança diferentes e pode ser capaz de ajudar com sua solicitação.

  • Envie feedback: Você pode nos informar, pois seu feedback nos ajuda a melhorar a precisão do filtro.

  • Edite sua mensagem: Você pode tentar reformular sua pergunta ou fornecer contexto adicional sobre seu caso de uso legítimo.

Por que os filtros?

À medida que os modelos de IA se tornam mais capazes, eles exigem proteções mais fortes contra possíveis usos indevidos. As medidas de implantação ASL-3 do Sonnet 4.5 fazem parte da Política de Escalabilidade Responsável da Anthropic, que garante que modelos cada vez mais capazes tenham salvaguardas apropriadas.

Os filtros são especificamente projetados para prevenir fluxos de trabalho CBRN estendidos e de ponta a ponta que poderiam representar riscos catastróficos. Eles não se destinam a bloquear discussões científicas gerais, conteúdo educacional ou informações comumente disponíveis.

Para pesquisadores e aplicações de uso duplo

Se você está trabalhando em pesquisa científica e precisa de acesso para fins legítimos, estabelecemos sistemas de controle de acesso para usuários verificados. Entre em contato com nossa equipe de suporte para saber mais.

Isto respondeu à sua pergunta?