Ya sea que esté comenzando el proceso de configurar salvaguardas para su implementación de API de Claude, o que su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al construir su propio programa de seguridad de IA. Estas sugerencias están diseñadas para ayudarle a cumplir con nuestros Términos de Servicio y Política de Uso, que prohíben ciertos usos de Claude. El incumplimiento de los Términos y la Política de Uso puede resultar en la suspensión o terminación de su acceso a los servicios.
Salvaguardas Básicas
Almacene IDs vinculados con cada llamada de API, de modo que si necesita identificar contenido específico que viole las políticas, tenga la capacidad de encontrarlo en sus sistemas.
Considere asignar IDs a los usuarios, lo que puede ayudarle a rastrear individuos específicos que están violando la AUP de Anthropic, permitiendo una acción más dirigida en casos de uso indebido.
La elección de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar violaciones con mayor precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar cifrado criptográficamente.
Considere requerir que los clientes se registren para obtener una cuenta en su plataforma antes de utilizar Claude
Asegúrese de que sus clientes comprendan los usos permitidos
Advierta, limite o suspenda a los usuarios que violen repetidamente los Términos de Servicio y la Política de Uso de Anthropic
Salvaguardas Intermedias
Cree marcos de personalización que restrinjan las interacciones de los usuarios finales con Claude a un conjunto limitado de prompts o que solo permitan a Claude revisar un corpus de conocimiento específico que usted ya tenga, lo que disminuirá la capacidad de los usuarios de participar en comportamientos que violen las políticas.
Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar prompts potencialmente dañinos y gestionar acciones en tiempo real para reducir el daño
Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con [email protected].
Para Clientes de Bedrock:
Active su bucket S3 privado para almacenar prompts y respuestas para su propia evaluación
Salvaguardas Avanzadas
Ejecute una API de moderación contra todos los prompts de usuarios finales antes de que se envíen a Claude para asegurarse de que no sean dañinos
Salvaguardas Integrales
Configure un sistema interno de revisión humana para marcar prompts que sean señalados por Claude (siendo utilizado para moderación de contenido) o por una API de moderación como dañinos, de modo que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.
