Il nostro approccio alla sicurezza degli utenti

La sicurezza degli utenti è fondamentale per la missione di Anthropic di creare sistemi di IA affidabili, interpretabili e controllabili. Con il lancio di nuovi modi per interagire con Claude, ci aspettiamo anche di vedere emergere nuovi tipi di potenziali danni, sia attraverso la generazione di disinformazione, contenuti inaccettabili, discorsi d'odio o altri abusi. Stiamo investendo attivamente e sperimentando funzioni di sicurezza aggiuntive per integrare i nostri sforzi di sicurezza del modello esistenti e stiamo lavorando per fornire strumenti utili a un ampio pubblico, facendo al contempo il nostro meglio per mitigare i danni. Il lancio di nuovi prodotti in beta aperto ci consente di sperimentare, iterare e ascoltare il vostro feedback. Ecco alcune delle funzioni di sicurezza che abbiamo introdotto:

Modelli di rilevamento che segnalano potenziali contenuti dannosi in base alla nostra Politica di utilizzo.
Filtri di sicurezza sui prompt, che possono bloccare le risposte del modello quando i nostri modelli di rilevamento segnalano contenuti come dannosi.
Filtri di sicurezza potenziati, che ci consentono di aumentare la sensibilità dei nostri modelli di rilevamento. Potremmo applicare temporaneamente filtri di sicurezza potenziati agli utenti che violano ripetutamente le nostre politiche e rimuovere questi controlli dopo un periodo senza violazioni o con poche violazioni.

Queste funzioni non sono infallibili e potremmo commettere errori attraverso falsi positivi o falsi negativi. Il vostro feedback su queste misure e su come le spieghiamo agli utenti giocherà un ruolo chiave nell'aiutarci a migliorare questi sistemi di sicurezza, e vi incoraggiamo a contattarci all'indirizzo [email protected] con qualsiasi feedback abbiate. Per saperne di più, leggete le nostre opinioni fondamentali sulla sicurezza dell'IA.