Инструменты защиты API

Независимо от того, только ли вы начинаете процесс установки защитных механизмов для развертывания Claude через API или ваше развертывание уже работает, вот некоторые стратегии, которые следует рассмотреть при создании собственной программы безопасности ИИ. Эти рекомендации разработаны, чтобы помочь вам соответствовать нашим Условиям обслуживания и Политике использования, которые запрещают определенные способы использования Claude. Несоблюдение Условий и Политики использования может привести к приостановлению или прекращению доступа к услугам.

Базовые защитные механизмы

Сохраняйте идентификаторы, связанные с каждым вызовом API, чтобы при необходимости выявить конкретный нарушающий контент у вас была возможность найти его в ваших системах.
Рассмотрите возможность назначения идентификаторов пользователям, что может помочь вам отследить конкретных лиц, нарушающих AUP Anthropic, позволяя принимать более целенаправленные меры в случаях неправомерного использования.
- Выбор передачи идентификаторов в Anthropic через API остается за вами. Однако, если они предоставлены, мы можем более точно выявить нарушения. Чтобы защитить конфиденциальность конечных пользователей, любые передаваемые идентификаторы должны быть криптографически хеширован.
Рассмотрите возможность требования от клиентов создать учетную запись на вашей платформе перед использованием Claude
Убедитесь, что ваши клиенты понимают допустимые способы использования
Предупреждайте, ограничивайте или приостанавливайте пользователей, которые неоднократно нарушают Условия обслуживания и Политику использования Anthropic

Промежуточные защитные механизмы

Создавайте фреймворки кастомизации, которые ограничивают взаимодействие конечных пользователей с Claude ограниченным набором подсказок или позволяют Claude проверять только определенный корпус знаний, который у вас уже есть, что снизит способность пользователей участвовать в нарушающем поведении.
Включите дополнительные фильтры безопасности — бесплатный инструмент модерации в реальном времени, созданный Anthropic для помощи в выявлении потенциально вредоносных подсказок и управлении действиями в реальном времени для снижения вреда
- Для получения дополнительной информации о том, как включить наши дополнительные фильтры безопасности, пожалуйста, свяжитесь с [email protected].
Для клиентов Bedrock:
- Активируйте ваш приватный бакет S3 для сохранения подсказок и ответов для вашей собственной оценки

Продвинутые защитные механизмы

Используйте Claude для модерации контента
Запускайте API модерации для всех подсказок конечных пользователей перед их отправкой в Claude, чтобы убедиться, что они не являются вредоносными

Комплексные защитные механизмы

Установите внутреннюю систему проверки человеком для отметки подсказок, которые помечены Claude (используемым для модерации контента) или API модерации как вредоносные, чтобы вы могли вмешаться и ограничить или удалить пользователей с высокими показателями нарушений.

Другие статьи по теме