К основному содержимому

Инструменты защиты API

Обновлено на этой неделе

Независимо от того, только ли вы начинаете процесс установки защитных механизмов для развертывания Claude через API или ваше развертывание уже работает, вот некоторые стратегии, которые следует рассмотреть при создании собственной программы безопасности ИИ. Эти рекомендации разработаны, чтобы помочь вам соответствовать нашим Условиям обслуживания и Политике использования, которые запрещают определенные способы использования Claude. Несоблюдение Условий и Политики использования может привести к приостановлению или прекращению доступа к услугам.

Базовые защитные механизмы

  • Сохраняйте идентификаторы, связанные с каждым вызовом API, чтобы при необходимости выявить конкретный нарушающий контент у вас была возможность найти его в ваших системах.

  • Рассмотрите возможность назначения идентификаторов пользователям, что может помочь вам отследить конкретных лиц, нарушающих AUP Anthropic, позволяя принимать более целенаправленные меры в случаях неправомерного использования.

    • Выбор передачи идентификаторов в Anthropic через API остается за вами. Однако, если они предоставлены, мы можем более точно выявить нарушения. Чтобы защитить конфиденциальность конечных пользователей, любые передаваемые идентификаторы должны быть криптографически хеширован.

  • Рассмотрите возможность требования от клиентов создать учетную запись на вашей платформе перед использованием Claude

  • Убедитесь, что ваши клиенты понимают допустимые способы использования

  • Предупреждайте, ограничивайте или приостанавливайте пользователей, которые неоднократно нарушают Условия обслуживания и Политику использования Anthropic

Промежуточные защитные механизмы

  • Создавайте фреймворки кастомизации, которые ограничивают взаимодействие конечных пользователей с Claude ограниченным набором подсказок или позволяют Claude только проверять определенный корпус знаний, который у вас уже есть, что снизит способность пользователей к нарушающему поведению.

  • Включите дополнительные фильтры безопасности — бесплатный инструмент модерации в реальном времени, созданный Anthropic для помощи в выявлении потенциально вредоносных подсказок и управлении действиями в реальном времени для снижения вреда

    • Для получения дополнительной информации о том, как включить наши дополнительные фильтры безопасности, пожалуйста, свяжитесь с [email protected].

  • Для клиентов Bedrock:

    • Активируйте ваш приватный бакет S3 для сохранения подсказок и ответов для вашей собственной оценки

Продвинутые защитные механизмы

Комплексные защитные механизмы

  • Установите внутреннюю систему проверки человеком для отметки подсказок, которые помечены Claude (используемым для модерации контента) или API модерации как вредоносные, чтобы вы могли вмешаться и ограничить или удалить пользователей с высокими показателями нарушений.

Нашли ответ на свой вопрос?