Ir al contenido principal

Herramientas de Salvaguardas de API

Actualizado hace más de una semana

Ya sea que recién esté comenzando el proceso de configuración de salvaguardas para su implementación de API de Claude, o su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al crear su propio programa de seguridad de IA. Estas sugerencias están diseñadas para ayudarle a cumplir con nuestros Términos de Servicio y Política de Uso, que prohíben ciertos usos de Claude. El incumplimiento de los Términos y la Política de Uso puede resultar en la suspensión o terminación de su acceso a los servicios.

Salvaguardas Básicas

  • Almacene IDs vinculadas con cada llamada de API, de modo que si necesita identificar contenido violativo específico, tenga la capacidad de encontrarlo en sus sistemas.

  • Considere asignar IDs a los usuarios, lo que puede ayudarle a rastrear a individuos específicos que están violando la AUP de Anthropic, permitiendo acciones más específicas en casos de mal uso.

    • La opción de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar violaciones de manera más precisa. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar hasheado criptográficamente.

  • Considere requerir que los clientes se registren en una cuenta en su plataforma antes de utilizar Claude

  • Asegúrese de que sus clientes comprendan los usos permitidos

  • Advierta, limite la velocidad o suspenda a los usuarios que violen repetidamente los Términos de Servicio y la Política de Uso de Anthropic

Salvaguardas Intermedias

  • Cree marcos de personalización que restrinjan las interacciones de los usuarios finales con Claude a un conjunto limitado de indicaciones o que solo permitan que Claude revise un corpus de conocimiento específico que ya posee, lo que disminuirá la capacidad de los usuarios de participar en comportamientos violativos.

  • Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar indicaciones potencialmente dañinas y gestionar acciones en tiempo real para reducir el daño

    • Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con [email protected].

  • Para Clientes de Bedrock:

    • Active su bucket privado de S3 para almacenar indicaciones y completaciones para su propia evaluación

Salvaguardas Avanzadas

Salvaguardas Integrales

  • Configure un sistema interno de revisión humana para marcar indicaciones que sean marcadas por Claude (siendo utilizado para moderación de contenido) o una API de moderación como dañinas para que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.

¿Ha quedado contestada tu pregunta?