Цель

Мы считаем, что внешнее тестирование имеет решающее значение для создания безопасной экосистемы ИИ. По мере развития возможностей моделей последствия взломов могут становиться все более значительными. Эта постоянная программа основывается на наших успешных предыдущих инициативах по поиску ошибок и имеет несколько ключевых целей:

Выявить универсальные взломы в наших развернутых системах с защитой ASL-3
Обеспечить постоянную оценку эффективности наших защитных механизмов
Протестировать способность наших систем мониторинга обнаруживать уязвимости
Стимулировать использование одного центрального законного канала для сообщения об общедоступных взломах

Обзор программы

Наша программа поиска ошибок в безопасности моделей работает через HackerOne. Через эту программу мы заинтересованы в поиске универсальных взломов, которые преодолевают нашу систему Constitutional Classifiers. Мы также периодически запускаем целевые программы в рамках нашей общей программы для тестирования надежности классификаторов, которые мы планируем запустить в будущем.

Универсальный взлом — это обобщенный метод, который надежно вызывает ответы, нарушающие политику, из языковой модели, независимо от входного запроса. В отличие от узких взломов, которые зависят от специфики конкретного вопроса или контекста, универсальные взломы работают в широком диапазоне запросов и сценариев.

Это постоянная программа. После принятия в программу на HackerOne участники могут отправлять отчеты о взломах в любое время через эту программу. Чтобы помочь вам в ваших усилиях по красному тестированию, мы предоставляем доступ к бесплатному псевдониму модели, который отражает модель и классификаторы, работающие на нашей последней, наиболее продвинутой модели. Ваше использование этого бесплатного псевдонима модели должно быть ограничено выполнением авторизованных действий по красному тестированию.

Область действия программы

Эта программа в первую очередь заинтересована в обнаружении взломов, которые являются универсальными, в том смысле, что они могут раскрывать вредоносную информацию в широком диапазоне запросов, и детальными, в том смысле, что они раскрывают высокоспециализированную вредоносную информацию, связанную с биологическими угрозами.

Подчеркиваем, что нас интересуют взломы, которые извлекают информацию, отвечающую на набор вредоносных биологических вопросов, которые мы предоставляем принятым участникам программы.

Мы будем платить до $35 000 за каждый выявленный новый универсальный взлом. Нас интересуют только взломы, которые раскрывают значительные объемы вредоносной информации на основе наших единственных критериев и усмотрения. Мы выплачиваем вознаграждения по скользящей шкале на основе внутреннего рубрика оценки, который определяет, насколько детальными и точными являются ответы.

Эта программа охватывает взломы на наших Constitutional Classifiers. Для технических уязвимостей, которые потенциально существуют в наших информационных системах, таких как неправильные конфигурации, CSRF или подделки межсайтовых запросов, атаки повышения привилегий, SQL Injection, XSS и атаки обхода каталогов, пожалуйста, обратитесь к нашей политике ответственного раскрытия информации и отправьте ваш отчет здесь.

Как подать заявку

Вы можете подать заявку на участие в нашей программе здесь. Мы рассматриваем заявки на постоянной основе. Если вы будете приняты, вы получите приглашение через HackerOne. Если у вас еще нет учетной записи HackerOne, пожалуйста, создайте ее перед подачей заявки в программу, чтобы мы могли пригласить вас непосредственно на платформе. Вы должны использовать свой адрес электронной почты @wearehackerone.com для создания учетной записи Claude Console.

Использование Anthropic данных из программы

Участник согласен с тем, что все данные, отправленные в Anthropic, включая его продукты и услуги, в связи с этой программой могут использоваться, храниться, передаваться и/или публиковаться Anthropic неограниченно в целях развития его исследований безопасности, разработки моделей и связанных целей без дальнейших обязательств перед участником.

Другие статьи по теме

Что такое программа External Researcher Access Program?

Отчетность, блокировка и удаление контента из Claude

Программа Anthropic по искусственному интеллекту для науки

Публичное раскрытие уязвимостей

Могу ли я использовать мои Outputs для обучения модели ИИ?

Программа вознаграждения за обнаружение уязвимостей безопасности модели

Цель

Обзор программы

Область действия программы

Как подать заявку

Рекомендации по раскрытию информации и обязательства по конфиденциальности

Использование Anthropic данных из программы