Vai al contenuto principale

Comprensione dei Filtri di Sicurezza dell'API di Sonnet 4.5

Aggiornato questa settimana

Claude Sonnet 4.5 include nuove protezioni AI Safety Level 3 (ASL-3) progettate per prevenire l'uso improprio relativo alle armi chimiche, biologiche, radiologiche e nucleari (CBRN). Queste misure di sicurezza utilizzano Constitutional Classifiers che monitorano input e output per bloccare una categoria ristretta di contenuti dannosi.

Perché la mia richiesta API è stata bloccata?

I filtri di sicurezza di Sonnet 4.5 sono focalizzati in modo ristretto sulla prevenzione dell'assistenza con attività correlate alle armi CBRN. Se la tua richiesta è stata bloccata, i filtri hanno rilevato contenuti che corrispondevano a pattern associati a queste minacce specifiche.

Questi filtri sono ancora in fase di perfezionamento. Come con qualsiasi sistema automatizzato, possono verificarsi falsi positivi, il che significa che le richieste legittime possono occasionalmente essere segnalate erroneamente. Stiamo lavorando attivamente per migliorare la precisione di questi classificatori al fine di ridurre al minimo i disagi mantenendo la sicurezza.

Cosa puoi fare

Se la tua richiesta API è bloccata, ecco i passaggi che puoi intraprendere:

Evita pattern che attivano falsi positivi

I classificatori sono sensibili a determinati pattern che potrebbero assomigliare a tentativi di jailbreak o tecniche di offuscamento:

  • Evita contenuti simili a cifrari: stringhe codificate in Base64, hash di commit git, sequenze esadecimali e altri dati codificati possono attivare i filtri. Se hai bisogno di includere tale contenuto, considera se è essenziale per il tuo caso d'uso.

  • Semplifica le istruzioni di sistema: i prompt di sistema eccessivamente lunghi o complessi che includono logica condizionale intricata possono assomigliare a tentativi di offuscare il comportamento. Mantieni le istruzioni di sistema chiare e dirette.

  • Sii cauto con contenuti correlati alla biologia: se la tua applicazione non richiede specificamente informazioni biologiche o chimiche, considera di riformulare le richieste per evitare questi argomenti quando possibile.

Passa a Sonnet 4

Utilizza Sonnet 4 invece di Sonnet 4.5 nelle tue chiamate API. Sonnet 4 utilizza misure di sicurezza diverse e potrebbe essere in grado di elaborare la tua richiesta con successo.

Implementa logica di fallback

Integra la gestione degli errori nella tua applicazione che possa:

  • Rilevare quando una richiesta è bloccata dai filtri di sicurezza.

  • Riprovare automaticamente con Sonnet 4 come fallback.

  • Registrare gli incidenti per la tua revisione al fine di identificare pattern nei falsi positivi.

Fornisci feedback

Se ritieni che la tua richiesta sia stata bloccata erroneamente, contatta il nostro team di supporto API. Il tuo feedback ci aiuta a migliorare l'accuratezza dei filtri e ridurre i falsi positivi per i casi d'uso legittimi.

Perché i nuovi filtri?

Man mano che i modelli di IA diventano più capaci, richiedono protezioni più forti contro il potenziale uso improprio. Le misure di distribuzione ASL-3 di Sonnet 4.5 fanno parte della Responsible Scaling Policy di Anthropic, che garantisce che i modelli sempre più capaci abbiano salvaguardie appropriate.

I filtri sono specificamente progettati per prevenire flussi di lavoro CBRN estesi e end-to-end che potrebbero comportare rischi catastrofici. Non sono destinati a bloccare discussioni scientifiche generali, contenuti educativi o informazioni comunemente disponibili.

Per ricercatori e applicazioni a doppio uso

Se stai costruendo applicazioni per la ricerca scientifica o campi tecnologici a doppio uso e hai bisogno di accesso per scopi legittimi, abbiamo stabilito sistemi di controllo dell'accesso per utenti verificati. Contatta il nostro team di supporto API per saperne di più sulle esenzioni.

Hai ricevuto la risposta alla tua domanda?