К основному содержимому

Программа поиска уязвимостей в области безопасности моделей

Обновлено сегодня

Цель

Мы считаем, что внешнее тестирование имеет решающее значение для создания безопасной экосистемы ИИ. По мере развития возможностей моделей последствия взломов могут становиться все более значительными. Эта постоянная Программа основывается на наших успешных предыдущих инициативах по поиску ошибок и преследует несколько ключевых целей:

  1. Выявить универсальные взломы в наших развернутых системах с защитой ASL-3

  2. Обеспечить постоянную оценку эффективности наших защитных механизмов

  3. Протестировать способность наших систем мониторинга обнаруживать уязвимости

  4. Стимулировать использование одного центрального законного канала для сообщения об общедоступных взломах

Обзор Программы

Наша Программа поиска ошибок в безопасности моделей работает через HackerOne. Через эту Программу мы заинтересованы в поиске универсальных взломов, которые преодолевают нашу систему Constitutional Classifiers. Мы также периодически запускаем целевые программы в рамках нашей общей Программы для тестирования надежности классификаторов, которые мы планируем запустить в будущем.

Универсальный взлом — это обобщенный метод, который надежно вызывает ответы, нарушающие политику, из языковой модели, независимо от входного запроса. В отличие от узких взломов, которые зависят от специфики конкретного вопроса или контекста, универсальные взломы работают в широком диапазоне запросов и сценариев.

Это постоянная Программа. После принятия в Программу на HackerOne участники могут отправлять отчеты о взломах в любое время через эту Программу. Чтобы помочь вам в ваших усилиях по красному тестированию, мы предоставляем доступ к бесплатному псевдониму модели, который отражает модель и классификаторы, работающие на нашей последней, наиболее продвинутой модели. Ваше использование этого бесплатного псевдонима модели должно быть ограничено выполнением авторизованных действий по красному тестированию.

Область действия Программы

Эта Программа в первую очередь заинтересована в обнаружении взломов, которые являются универсальными, в том смысле, что они могут раскрывать вредоносную информацию в широком диапазоне запросов, и детальными, в том смысле, что они раскрывают высокоспециализированную вредоносную информацию, связанную с биологическими угрозами.

Подчеркиваем, что нас интересуют взломы, которые извлекают информацию, отвечающую на набор вредоносных биологических вопросов, которые мы предоставляем принятым участникам Программы.

Мы будем платить до $35 000 за каждый выявленный новый универсальный взлом. Нас интересуют только взломы, которые раскрывают значительные объемы вредоносной информации на основе наших единственных критериев и усмотрения. Мы выплачиваем вознаграждения по скользящей шкале на основе внутреннего рубрика оценки, который определяет, насколько детальными и точными являются ответы.

Эта программа охватывает взломы на наших Constitutional Classifiers. Для технических уязвимостей, которые потенциально существуют в наших информационных системах, таких как неправильные конфигурации, CSRF или подделки межсайтовых запросов, атаки повышения привилегий, SQL Injection, XSS и атаки обхода каталогов, пожалуйста, обратитесь к нашей Политике ответственного раскрытия информации и отправьте ваш отчет здесь.

Как подать заявку

Вы можете подать заявку на присоединение к нашей Программе здесь. Мы рассматриваем заявки на постоянной основе. Если вы будете приняты, вы получите приглашение через HackerOne. Если у вас еще нет учетной записи HackerOne, пожалуйста, создайте ее перед подачей заявки в Программу, чтобы мы могли пригласить вас непосредственно на платформе. Вы должны использовать ваш адрес электронной почты @wearehackerone.com для создания учетной записи Claude Console.

Руководящие принципы раскрытия информации и обязательства по конфиденциальности

Все участники Программы обязаны подписать соглашение о неразглашении информации для защиты конфиденциальности Программы в качестве условия присоединения. Вы можете публично раскрывать:

  • Существование Программы поиска ошибок в безопасности моделей Anthropic.

  • Ваше участие в качестве выбранного участника в Программе.

Вы не можете раскрывать без явного разрешения:

  • Любые взломы/уязвимости (даже устраненные) вне Программы без явного согласия Anthropic.

  • Набор тестовых вопросов.

  • Детали о классификаторах и мерах безопасности.

  • Информацию о тестируемых моделях.

  • Личность других участников.

  • Любую другую информацию, связанную с Программой, за исключением случаев, явно разрешенных выше.

Использование Anthropic данных из Программы

Участник согласен с тем, что все данные, отправленные в Anthropic, включая его продукты и услуги, в связи с этой Программой могут использоваться, храниться, передаваться и/или публиковаться Anthropic неограниченно в целях развития его исследований безопасности, разработки моделей и связанных целей без дополнительных обязательств перед

Нашли ответ на свой вопрос?