К основному содержимому

Понимание фильтров безопасности Sonnet 4.5

Обновлено на этой неделе

Claude Sonnet 4.5 включает защиту уровня безопасности ИИ 3 (ASL-3), разработанную для предотвращения неправомерного использования, связанного с химическим, биологическим, радиологическим и ядерным (ХБРЯ) оружием. Эти меры безопасности включают фильтры, называемые классификаторами, которые обнаруживают потенциально опасные входные и выходные данные.

Почему мое сообщение было заблокировано?

Фильтры безопасности Sonnet 4.5 предназначены для предотвращения помощи в выполнении задач, связанных с ХБРЯ (химическим, биологическим, радиологическим и ядерным) оружием. Если вы получили сообщение об ошибке, фильтры обнаружили содержимое, соответствующее шаблонам, связанным с этими конкретными угрозами.

Эти фильтры все еще совершенствуются, и они могут иногда случайно помечать обычное содержимое. Как и в любой автоматизированной системе, могут возникать ложные срабатывания — это означает, что законные запросы могут иногда быть помечены неправильно. Мы активно работаем над повышением точности этих классификаторов, чтобы минимизировать помехи при сохранении безопасности.

Что вы можете сделать

Если вы считаете, что ваше сообщение заблокировано в ответ на законное использование, у вас есть несколько вариантов:

Избегайте шаблонов, вызывающих ложные срабатывания

Классификаторы чувствительны к определенным шаблонам, которые могут напоминать попытки обхода защиты или методы обфускации:

  • Избегайте содержимого, похожего на шифр: строки в кодировке Base64, хэши коммитов git, шестнадцатеричные последовательности и другие закодированные данные могут активировать фильтры. Если вам нужно включить такое содержимое, добавьте окружающее содержимое, чтобы объяснить, как и почему оно используется.

  • Упростите инструкции: чрезмерно длинные или сложные системные подсказки, включающие сложную условную логику, могут напоминать попытки скрыть поведение. Держите подсказки ясными и понятными.

  • Будьте осторожны с содержимым, связанным с биологией: если ваше приложение не требует специально биологическую или химическую информацию, рассмотрите возможность переформулировки запросов, чтобы избежать этих тем, где это возможно.

Другие варианты

  • Продолжите с Claude Sonnet 4: вы можете переключиться на Claude Sonnet 4 для остальной части разговора, который использует другие меры безопасности и может помочь с вашим запросом.

  • Отправьте отзыв: вы можете дать нам знать, так как ваш отзыв помогает нам улучшить точность фильтров.

  • Отредактируйте ваше сообщение: вы можете попробовать переформулировать ваш вопрос или предоставить дополнительный контекст о вашем законном использовании.

Зачем нужны фильтры?

По мере того как модели ИИ становятся более мощными, они требуют более сильной защиты от потенциального неправомерного использования. Меры развертывания ASL-3 Sonnet 4.5 являются частью Политики ответственного масштабирования Anthropic, которая обеспечивает, чтобы все более мощные модели имели надлежащие защиты.

Фильтры специально разработаны для предотвращения расширенных, сквозных рабочих процессов ХБРЯ, которые могут представлять катастрофические риски. Они не предназначены для блокирования общего научного обсуждения, образовательного содержимого или общедоступной информации.

Для исследователей и приложений двойного назначения

Если вы работаете в научных исследованиях и вам нужен доступ в законных целях, мы установили системы контроля доступа для проверенных пользователей. Свяжитесь с нашей командой поддержки, чтобы узнать больше.

Нашли ответ на свой вопрос?