К основному содержимому

Наш подход к безопасности пользователей

Обновлено на этой неделе

Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем искусственного интеллекта. По мере того как мы запускаем новые способы взаимодействия людей с Claude, мы также ожидаем появления новых типов потенциального вреда, будь то генерация дезинформации, возмутительного контента, речи ненависти или других злоупотреблений. Мы активно инвестируем в дополнительные функции безопасности и экспериментируем с ними, чтобы дополнить наши существующие усилия по безопасности моделей, и работаем над предоставлением полезных инструментов широкой аудитории, одновременно делая все возможное для снижения вреда. Запуск новых продуктов в открытой бета-версии позволяет нам экспериментировать, совершенствоваться и услышать ваши отзывы. Вот некоторые из функций безопасности, которые мы внедрили:

  • Модели обнаружения, которые отмечают потенциально вредоносный контент на основе нашей Политики использования.

  • Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения отмечают контент как вредоносный.

  • Усиленные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применять усиленные фильтры безопасности к пользователям, которые неоднократно нарушают наши политики, и снимать эти ограничения после периода отсутствия или небольшого количества нарушений.

Эти функции не являются абсолютно надежными, и мы можем допускать ошибки как в виде ложных срабатываний, так и ложных отрицаний. Ваши отзывы об этих мерах и о том, как мы их объясняем пользователям, сыграют ключевую роль в помощи нам в улучшении этих систем безопасности, и мы рекомендуем вам связаться с нами по адресу [email protected] с любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность искусственного интеллекта.

Нашли ответ на свой вопрос?