Notre approche de la sécurité des utilisateurs

La sécurité des utilisateurs est au cœur de la mission d'Anthropic de créer des systèmes d'IA fiables, interprétables et contrôlables. À mesure que nous lançons de nouvelles façons pour les gens d'interagir avec Claude, nous nous attendons également à voir émerger de nouveaux types de préjudices potentiels, qu'il s'agisse de la génération de désinformation, de contenu répréhensible, de discours haineux ou d'autres abus. Nous investissons activement dans et expérimentons des fonctionnalités de sécurité supplémentaires pour compléter nos efforts existants en matière de sécurité des modèles, et nous travaillons à fournir des outils utiles à un large public tout en faisant de notre mieux pour atténuer les préjudices. Le lancement de nouveaux produits en bêta ouvert nous permet d'expérimenter, d'itérer et d'entendre vos commentaires. Voici quelques-unes des fonctionnalités de sécurité que nous avons introduites :

Des modèles de détection qui signalent le contenu potentiellement nuisible en fonction de notre Politique d'utilisation.
Des filtres de sécurité sur les invites, qui peuvent bloquer les réponses du modèle lorsque nos modèles de détection signalent un contenu comme nuisible.
Des filtres de sécurité renforcés, qui nous permettent d'augmenter la sensibilité de nos modèles de détection. Nous pouvons appliquer temporairement des filtres de sécurité renforcés aux utilisateurs qui violent à plusieurs reprises nos politiques, et supprimer ces contrôles après une période sans violations ou avec peu de violations.

Ces fonctionnalités ne sont pas infaillibles, et nous pouvons faire des erreurs par des faux positifs ou des faux négatifs. Vos commentaires sur ces mesures et la façon dont nous les expliquons aux utilisateurs joueront un rôle clé pour nous aider à améliorer ces systèmes de sécurité, et nous vous encourageons à nous contacter à [email protected] avec tout commentaire que vous pourriez avoir. Pour en savoir plus, lisez nos points de vue fondamentaux sur la sécurité de l'IA.