Claude Sonnet 4.5 inclut de nouvelles protections de niveau de sécurité IA 3 (ASL-3) conçues pour prévenir les abus liés aux armes chimiques, biologiques, radiologiques et nucléaires (CBRN). Ces mesures de sécurité utilisent des classificateurs constitutionnels qui surveillent les entrées et les sorties pour bloquer une catégorie étroite de contenu nuisible.

Pourquoi ma demande d'API a-t-elle été bloquée ?

Les filtres de sécurité de Sonnet 4.5 sont étroitement axés sur la prévention de l'assistance pour les tâches liées aux armes CBRN. Si votre demande a été bloquée, les filtres ont détecté un contenu qui correspondait à des modèles associés à ces menaces spécifiques.

Ces filtres sont toujours en cours de perfectionnement. Comme tout système automatisé, des faux positifs peuvent se produire, ce qui signifie que les demandes légitimes peuvent occasionnellement être signalées incorrectement. Nous travaillons activement à l'amélioration de la précision de ces classificateurs pour minimiser les perturbations tout en maintenant la sécurité.

Ce que vous pouvez faire

Si votre demande d'API est bloquée, voici les étapes que vous pouvez suivre :

Évitez les modèles qui déclenchent des faux positifs

Les classificateurs sont sensibles à certains modèles qui peuvent ressembler à des tentatives de contournement de sécurité ou à des techniques d'obfuscation :

Évitez le contenu de type chiffre : Les chaînes codées en Base64, les hachages de commit git, les séquences hexadécimales et autres données codées peuvent déclencher les filtres. Si vous devez inclure ce type de contenu, considérez si c'est essentiel à votre cas d'usage.
Simplifiez les instructions système : Les invites système excessivement longues ou complexes qui incluent une logique conditionnelle complexe peuvent ressembler à des tentatives d'obfuscation du comportement. Gardez les instructions système claires et directes.
Soyez prudent avec le contenu lié à la biologie : Si votre application ne nécessite pas spécifiquement d'informations biologiques ou chimiques, envisagez de reformuler les demandes pour éviter ces sujets si possible.

Basculez vers Sonnet 4

Utilisez Sonnet 4 au lieu de Sonnet 4.5 dans vos appels d'API. Sonnet 4 utilise des mesures de sécurité différentes et peut être en mesure de traiter votre demande avec succès.

Implémentez une logique de secours

Intégrez la gestion des erreurs dans votre application qui peut :

Détecter quand une demande est bloquée par les filtres de sécurité.
Réessayer automatiquement avec Sonnet 4 comme solution de secours.
Enregistrer les incidents pour votre examen afin d'identifier les modèles de faux positifs.

Fournir des commentaires

Si vous pensez que votre demande a été bloquée à tort, contactez notre équipe d'assistance API. Vos commentaires nous aident à améliorer la précision des filtres et à réduire les faux positifs pour les cas d'usage légitimes.

Pourquoi les nouveaux filtres ?

À mesure que les modèles d'IA deviennent plus puissants, ils nécessitent des protections plus fortes contre les abus potentiels. Les mesures de déploiement ASL-3 de Sonnet 4.5 font partie de la politique de mise à l'échelle responsable d'Anthropic, qui garantit que les modèles de plus en plus puissants disposent de protections appropriées.

Les filtres sont spécifiquement conçus pour prévenir les flux de travail CBRN prolongés et de bout en bout qui pourraient poser des risques catastrophiques. Ils ne sont pas destinés à bloquer les discussions scientifiques générales, le contenu éducatif ou les informations couramment disponibles.

Pour les chercheurs et les applications à double usage

Si vous développez des applications pour la recherche scientifique ou les domaines technologiques à double usage et avez besoin d'accès à des fins légitimes, nous avons établi des systèmes de contrôle d'accès pour les utilisateurs vérifiés. Contactez notre équipe d'assistance API pour en savoir plus sur les exemptions.

Comprendre les filtres de sécurité de l'API de Sonnet 4.5