Ya sea que recién esté comenzando el proceso de configurar salvaguardas para su implementación de API de Claude, o su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al crear su propio programa de seguridad de IA. Estas sugerencias están diseñadas para ayudarle a cumplir con nuestros Términos de Servicio y Política de Uso, que prohíben ciertos usos de Claude. El incumplimiento de los Términos y la Política de Uso puede resultar en la suspensión o terminación de su acceso a los servicios.
Salvaguardas Básicas
Almacene IDs vinculadas con cada llamada de API, de modo que si necesita identificar contenido violativo específico, tenga la capacidad de encontrarlo en sus sistemas.
Considere asignar IDs a los usuarios, lo que puede ayudarle a rastrear a individuos específicos que están violando la AUP de Anthropic, permitiendo acciones más específicas en casos de mal uso.
La opción de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar violaciones de manera más precisa. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar hasheada criptográficamente.
Considere requerir que los clientes se registren en una cuenta en su plataforma antes de utilizar Claude
Asegúrese de que sus clientes comprendan los usos permitidos
Advierta, limite la velocidad o suspenda a los usuarios que violen repetidamente los Términos de Servicio y la Política de Uso de Anthropic
Salvaguardas Intermedias
Cree marcos de personalización que restrinjan las interacciones de los usuarios finales con Claude a un conjunto limitado de indicaciones o que solo permitan que Claude revise un corpus de conocimiento específico que ya posee, lo que disminuirá la capacidad de los usuarios de participar en comportamientos violativos.
Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y gestionar acciones en tiempo real para reducir el daño
Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con [email protected].
Para Clientes de Bedrock:
Active su bucket privado de S3 para almacenar indicaciones y completaciones para su propia evaluación
Salvaguardas Avanzadas
Ejecute una API de moderación contra todas las indicaciones de usuarios finales antes de que se envíen a Claude para asegurar que no sean dañinas
Salvaguardas Integrales
Configure un sistema interno de revisión humana para marcar indicaciones que sean marcadas por Claude (siendo utilizado para moderación de contenido) o una API de moderación como dañinas para que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.
