Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем искусственного интеллекта. По мере того как мы запускаем новые способы взаимодействия людей с Claude, мы также ожидаем появления новых типов потенциального вреда, будь то генерация дезинформации, возмутительного контента, речи ненависти или других злоупотреблений. Мы активно инвестируем в дополнительные функции безопасности и экспериментируем с ними, чтобы дополнить наши существующие усилия по безопасности моделей, и работаем над предоставлением полезных инструментов широкой аудитории, одновременно делая все возможное для снижения вреда. Запуск новых продуктов в открытой бета-версии позволяет нам экспериментировать, совершенствоваться и услышать ваши отзывы. Вот некоторые из функций безопасности, которые мы внедрили:
Модели обнаружения, которые отмечают потенциально вредоносный контент на основе нашей Политики использования.
Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения отмечают контент как вредоносный.
Усиленные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применять усиленные фильтры безопасности к пользователям, которые неоднократно нарушают наши политики, и снимать эти ограничения после периода отсутствия или небольшого количества нарушений.
Эти функции не являются абсолютно надежными, и мы можем допускать ошибки как в виде ложных срабатываний, так и ложных отрицаний. Ваши отзывы об этих мерах и о том, как мы их объясняем пользователям, сыграют ключевую роль в помощи нам в улучшении этих систем безопасности, и мы рекомендуем вам связаться с нами по адресу [email protected] с любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность искусственного интеллекта.
