Ir para conteúdo principal

Compreendendo os Filtros de Segurança da API do Sonnet 4.5

Atualizado esta semana

Claude Sonnet 4.5 inclui novas proteções de Nível de Segurança de IA 3 (ASL-3) projetadas para prevenir o uso indevido relacionado a armas químicas, biológicas, radiológicas e nucleares (CBRN). Essas medidas de segurança usam Classificadores Constitucionais que monitoram entradas e saídas para bloquear uma categoria estreita de conteúdo prejudicial.

Por que minha solicitação de API foi bloqueada?

Os filtros de segurança do Sonnet 4.5 são estreitamente focados em prevenir assistência com tarefas relacionadas a armas CBRN. Se sua solicitação foi bloqueada, os filtros detectaram conteúdo que correspondia a padrões associados a essas ameaças específicas.

Esses filtros ainda estão sendo refinados. Como em qualquer sistema automatizado, falsos positivos podem ocorrer — o que significa que solicitações legítimas podem ocasionalmente ser sinalizadas incorretamente. Estamos trabalhando ativamente para melhorar a precisão desses classificadores para minimizar interrupções mantendo a segurança.

O que você pode fazer

Se sua solicitação de API for bloqueada, aqui estão as etapas que você pode seguir:

Evite padrões que acionem falsos positivos

Os classificadores são sensíveis a certos padrões que podem se assemelhar a tentativas de jailbreak ou técnicas de ofuscação:

  • Evite conteúdo semelhante a cifra: Strings codificadas em Base64, hashes de commit do git, sequências hexadecimais e outros dados codificados podem acionar os filtros. Se você precisar incluir esse conteúdo, considere se é essencial para seu caso de uso.

  • Simplifique as instruções do sistema: Prompts de sistema excessivamente longos ou complexos que incluem lógica condicional intrincada podem se assemelhar a tentativas de ofuscar o comportamento. Mantenha as instruções do sistema claras e diretas.

  • Tenha cuidado com conteúdo relacionado à biologia: Se sua aplicação não exigir especificamente informações biológicas ou químicas, considere reformular as solicitações para evitar esses tópicos quando possível.

Mude para Sonnet 4

Use Sonnet 4 em vez de Sonnet 4.5 em suas chamadas de API. Sonnet 4 usa medidas de segurança diferentes e pode ser capaz de processar sua solicitação com sucesso.

Implemente lógica de fallback

Construa tratamento de erros em sua aplicação que possa:

  • Detectar quando uma solicitação é bloqueada pelos filtros de segurança.

  • Tentar novamente automaticamente com Sonnet 4 como fallback.

  • Registrar incidentes para sua revisão a fim de identificar padrões em falsos positivos.

Forneça feedback

Se você acredita que sua solicitação foi bloqueada incorretamente, entre em contato com nossa equipe de suporte de API. Seu feedback nos ajuda a melhorar a precisão dos filtros e reduzir falsos positivos para casos de uso legítimos.

Por que os novos filtros?

À medida que os modelos de IA se tornam mais capazes, eles exigem proteções mais fortes contra possíveis usos indevidos. As medidas de implantação ASL-3 do Sonnet 4.5 fazem parte da Política de Dimensionamento Responsável da Anthropic, que garante que modelos cada vez mais capazes tenham salvaguardas apropriadas.

Os filtros são especificamente projetados para prevenir fluxos de trabalho CBRN estendidos e de ponta a ponta que possam representar riscos catastróficos. Eles não se destinam a bloquear discussões científicas gerais, conteúdo educacional ou informações comumente disponíveis.

Para pesquisadores e aplicações de uso duplo

Se você está construindo aplicações para pesquisa científica ou campos de tecnologia de uso duplo e precisa de acesso para fins legítimos, estabelecemos sistemas de controle de acesso para usuários verificados. Entre em contato com nossa equipe de suporte de API para saber mais sobre isenções.

Isto respondeu à sua pergunta?