Ir al contenido principal

Nuestro Enfoque sobre la Seguridad del Usuario

Actualizado esta semana

La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y controlables. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver materializarse nuevos tipos de daños potenciales, ya sea a través de la generación de desinformación, contenido objetable, discurso de odio u otros usos indebidos. Estamos invirtiendo activamente y experimentando con características de seguridad adicionales para complementar nuestros esfuerzos existentes de seguridad del modelo y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia mientras también hacemos nuestro mejor esfuerzo para mitigar el daño. Lanzar nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Estas son algunas de las características de seguridad que hemos introducido:

  • Modelos de detección que señalan contenido potencialmente dañino basándose en nuestra Política de Uso.

  • Filtros de seguridad en las indicaciones, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección señalan el contenido como dañino.

  • Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a usuarios que violen repetidamente nuestras políticas, y eliminar estos controles después de un período sin violaciones o con pocas violaciones.

Estas características no son infalibles, y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo las explicamos a los usuarios desempeñarán un papel clave para ayudarnos a mejorar estos sistemas de seguridad, y le animamos a que se comunique con nosotros en [email protected] con cualquier comentario que pueda tener. Para obtener más información, lea sobre nuestras opiniones fundamentales sobre la seguridad de la IA.

¿Ha quedado contestada tu pregunta?