La seguridad del usuario es fundamental para la misión de Anthropic de crear sistemas de IA confiables, interpretables y controlables. A medida que lanzamos nuevas formas para que las personas interactúen con Claude, también esperamos ver materializarse nuevos tipos de daños potenciales, ya sea a través de la generación de desinformación, contenido objetable, discurso de odio u otros usos indebidos. Estamos invirtiendo activamente y experimentando con características de seguridad adicionales para complementar nuestros esfuerzos existentes de seguridad del modelo y estamos trabajando para proporcionar herramientas útiles a una amplia audiencia mientras también hacemos nuestro mejor esfuerzo para mitigar el daño. Lanzar nuevos productos en beta abierta nos permite experimentar, iterar y escuchar sus comentarios. Estas son algunas de las características de seguridad que hemos introducido:
Modelos de detección que señalan contenido potencialmente dañino basándose en nuestra Política de Uso.
Filtros de seguridad en las indicaciones, que pueden bloquear respuestas del modelo cuando nuestros modelos de detección señalan el contenido como dañino.
Filtros de seguridad mejorados, que nos permiten aumentar la sensibilidad de nuestros modelos de detección. Podemos aplicar temporalmente filtros de seguridad mejorados a usuarios que violen repetidamente nuestras políticas, y eliminar estos controles después de un período sin violaciones o con pocas violaciones.
Estas características no son infalibles, y podemos cometer errores a través de falsos positivos o falsos negativos. Sus comentarios sobre estas medidas y cómo las explicamos a los usuarios desempeñarán un papel clave para ayudarnos a mejorar estos sistemas de seguridad, y le animamos a que se comunique con nosotros en [email protected] con cualquier comentario que pueda tener. Para obtener más información, lea sobre nuestras opiniones fundamentales sobre la seguridad de la IA.
