Nuestro Enfoque para la Seguridad del Usuario | Centro de ayuda de Anthropic

La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y controlables. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver nuevos tipos de daño potencial materializarse, ya sea a través de la generación de desinformación, contenido objetable, discurso de odio u otros usos indebidos. Estamos invirtiendo activamente y experimentando con características de seguridad adicionales para complementar nuestros esfuerzos existentes de seguridad del modelo y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia mientras hacemos nuestro mejor esfuerzo para mitigar el daño. El lanzamiento de nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Aquí hay algunas de las características de seguridad que hemos introducido:

Modelos de detección que marcan contenido potencialmente dañino basado en nuestra Política de Uso.
Filtros de seguridad en indicaciones, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección marcan contenido como dañino.
Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a usuarios que violen repetidamente nuestras políticas, y eliminar estos controles después de un período sin violaciones o con pocas violaciones.

Estas características no son infalibles, y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo las explicamos a los usuarios jugarán un papel clave en ayudarnos a mejorar estos sistemas de seguridad, y lo alentamos a que se comunique con nosotros en [email protected] con cualquier comentario que pueda tener. Para obtener más información, lea sobre nuestras opiniones fundamentales sobre seguridad de IA.