Ir al contenido principal

Nuestro Enfoque para la Seguridad del Usuario

Actualizado esta semana

La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y controlables. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver nuevos tipos de daño potencial materializarse, ya sea a través de la generación de desinformación, contenido objetable, discurso de odio u otros usos indebidos. Estamos invirtiendo activamente y experimentando con características de seguridad adicionales para complementar nuestros esfuerzos existentes de seguridad del modelo y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia mientras hacemos nuestro mejor esfuerzo para mitigar el daño. El lanzamiento de nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Aquí hay algunas de las características de seguridad que hemos introducido:

  • Modelos de detección que marcan contenido potencialmente dañino basado en nuestra Política de Uso.

  • Filtros de seguridad en indicaciones, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección marcan contenido como dañino.

  • Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a usuarios que violen repetidamente nuestras políticas, y eliminar estos controles después de un período sin violaciones o con pocas violaciones.

Estas características no son infalibles, y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo las explicamos a los usuarios jugarán un papel clave en ayudarnos a mejorar estos sistemas de seguridad, y lo alentamos a que se comunique con nosotros en [email protected] con cualquier comentario que pueda tener. Para obtener más información, lea sobre nuestras opiniones fundamentales sobre seguridad de IA.

¿Ha quedado contestada tu pregunta?