Ir al contenido principal

Herramientas de Protección de API

Actualizado esta semana

Ya sea que esté comenzando el proceso de configurar salvaguardas para su implementación de API de Claude, o que su implementación ya esté en funcionamiento, aquí hay algunas estrategias a considerar al construir su propio programa de seguridad de IA. Estas sugerencias están diseñadas para ayudarle a cumplir con nuestros Términos de Servicio y Política de Uso, que prohíben ciertos usos de Claude. El incumplimiento de los Términos y la Política de Uso puede resultar en la suspensión o terminación de su acceso a los servicios.

Salvaguardas Básicas

  • Almacene IDs vinculados con cada llamada de API, de modo que si necesita identificar contenido específico que viole las políticas, tenga la capacidad de encontrarlo en sus sistemas.

  • Considere asignar IDs a los usuarios, lo que puede ayudarle a rastrear individuos específicos que están violando la AUP de Anthropic, permitiendo una acción más dirigida en casos de uso indebido.

    • La elección de pasar IDs a Anthropic a través de la API depende de usted. Pero, si se proporcionan, podemos identificar violaciones con mayor precisión. Para ayudar a proteger la privacidad de los usuarios finales, cualquier ID que se pase debe estar cifrado criptográficamente.

  • Considere requerir que los clientes se registren para obtener una cuenta en su plataforma antes de utilizar Claude

  • Asegúrese de que sus clientes comprendan los usos permitidos

  • Advierta, limite o suspenda a los usuarios que violen repetidamente los Términos de Servicio y la Política de Uso de Anthropic

Salvaguardas Intermedias

  • Cree marcos de personalización que restrinjan las interacciones de los usuarios finales con Claude a un conjunto limitado de prompts o que solo permitan a Claude revisar un corpus de conocimiento específico que usted ya tenga, lo que disminuirá la capacidad de los usuarios de participar en comportamientos que violen las políticas.

  • Habilite filtros de seguridad adicionales - herramientas de moderación en tiempo real gratuitas creadas por Anthropic para ayudar a detectar prompts potencialmente dañinos y gestionar acciones en tiempo real para reducir el daño

    • Para obtener más información sobre cómo habilitar nuestros filtros de seguridad adicionales, comuníquese con [email protected].

  • Para Clientes de Bedrock:

    • Active su bucket S3 privado para almacenar prompts y respuestas para su propia evaluación

Salvaguardas Avanzadas

Salvaguardas Integrales

  • Configure un sistema interno de revisión humana para marcar prompts que sean señalados por Claude (siendo utilizado para moderación de contenido) o por una API de moderación como dañinos, de modo que pueda intervenir para restringir o eliminar usuarios con altas tasas de violación.

¿Ha quedado contestada tu pregunta?