Наш подход к безопасности пользователей

Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем искусственного интеллекта. По мере того как мы запускаем новые способы взаимодействия людей с Claude, мы также ожидаем появления новых типов потенциального вреда, будь то генерация дезинформации, возмутительного контента, речи ненависти или других злоупотреблений. Мы активно инвестируем в дополнительные функции безопасности и экспериментируем с ними, чтобы дополнить наши существующие усилия по безопасности моделей, и работаем над предоставлением полезных инструментов широкой аудитории, одновременно делая все возможное для снижения вреда. Запуск новых продуктов в открытой бета-версии позволяет нам экспериментировать, совершенствоваться и услышать ваши отзывы. Вот некоторые из функций безопасности, которые мы внедрили:

Модели обнаружения, которые отмечают потенциально вредоносный контент на основе нашей Политики использования.
Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения отмечают контент как вредоносный.
Усиленные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применять усиленные фильтры безопасности к пользователям, которые неоднократно нарушают наши политики, и удалять эти элементы управления после периода отсутствия или небольшого количества нарушений.

Эти функции не являются надежными, и мы можем допускать ошибки как ложные срабатывания, так и ложные отрицания. Ваши отзывы об этих мерах и о том, как мы их объясняем пользователям, сыграют ключевую роль в помощи нам в улучшении этих систем безопасности, и мы рекомендуем вам связаться с нами по адресу [email protected] с любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность искусственного интеллекта.

Другие статьи по теме

Я планирую запустить продукт с использованием Claude API. Какие шаги мне следует предпринять, чтобы убедиться, что я не нарушаю Usage Policy компании Anthropic?

Инструменты защиты API

Программа вознаграждения за обнаружение уязвимостей безопасности модели

Могу ли я использовать мои Outputs для обучения модели ИИ?

Безопасное использование Claude в Chrome