Ir al contenido principal

Herramientas de Salvaguardas de API

Actualizado esta semana

Ya sea que recién esté comenzando el proceso de configurar salvaguardas para su implementación de API de Claude, o su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al crear su propio programa de seguridad de IA. Estas sugerencias están diseñadas para ayudarle a cumplir con nuestros Términos de Servicio y Política de Uso, que prohíben ciertos usos de Claude. El incumplimiento de los Términos y la Política de Uso puede resultar en la suspensión o terminación de su acceso a los servicios.

Salvaguardas Básicas

  • Almacene IDs vinculadas con cada llamada de API, de modo que si necesita identificar contenido violativo específico, tenga la capacidad de encontrarlo en sus sistemas.

  • Considere asignar IDs a los usuarios, lo que puede ayudarle a rastrear a individuos específicos que están violando la AUP de Anthropic, permitiendo acciones más específicas en casos de mal uso.

    • La opción de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar violaciones de manera más precisa. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar hasheada criptográficamente.

  • Considere requerir que los clientes se registren en una cuenta en su plataforma antes de utilizar Claude

  • Asegúrese de que sus clientes comprendan los usos permitidos

  • Advierta, limite la velocidad o suspenda a los usuarios que violen repetidamente los Términos de Servicio y la Política de Uso de Anthropic

Salvaguardas Intermedias

  • Cree marcos de personalización que restrinjan las interacciones de los usuarios finales con Claude a un conjunto limitado de indicaciones o que solo permitan que Claude revise un corpus de conocimiento específico que ya posee, lo que disminuirá la capacidad de los usuarios de participar en comportamientos violativos.

  • Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y gestionar acciones en tiempo real para reducir el daño

    • Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con [email protected].

  • Para Clientes de Bedrock:

    • Active su bucket privado de S3 para almacenar indicaciones y completaciones para su propia evaluación

Salvaguardas Avanzadas

Salvaguardas Integrales

  • Configure un sistema interno de revisión humana para marcar indicaciones que sean marcadas por Claude (siendo utilizado para moderación de contenido) o una API de moderación como dañinas para que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.

¿Ha quedado contestada tu pregunta?