Objetivo

Acreditamos que testes externos são cruciais para construir um ecossistema de IA seguro. À medida que as capacidades dos modelos avançam, as consequências de jailbreaks podem se tornar cada vez mais significativas. Este Programa contínuo se baseia em nossas iniciativas anteriores bem-sucedidas de recompensa por bugs com vários objetivos principais:

Identificar jailbreaks universais em nossos sistemas implantados com proteções ASL-3
Fornecer avaliação contínua da eficácia de nossas salvaguardas
Testar a capacidade de nossos sistemas de monitoramento de detectar vulnerabilidades
Incentivar o uso de um único canal legítimo centralizado para relatar jailbreaks disponíveis publicamente

Visão Geral do Programa

Nosso Programa de Recompensa por Bugs de Segurança de Modelos é executado através da HackerOne. Por meio deste Programa, estamos interessados em encontrar jailbreaks universais que superem nosso sistema de Constitutional Classifiers. Também executamos ocasionalmente programas direcionados dentro de nosso Programa geral para testar a robustez de classificadores que esperamos lançar no futuro.

Um jailbreak universal é uma técnica generalizada que confiável elicita respostas que violam políticas de um modelo de linguagem, independentemente do prompt de entrada. Ao contrário de jailbreaks estreitos, que dependem das especificidades de uma pergunta ou contexto particular, jailbreaks universais funcionam em uma ampla gama de prompts e cenários.

Este é um Programa contínuo. Uma vez aceito no Programa na HackerOne, os participantes podem enviar relatórios de jailbreak a qualquer momento através deste Programa. Para ajudar seus esforços de red-teaming, fornecemos acesso a um alias de modelo gratuito que reflete o modelo e os classificadores ativos em nosso modelo mais avançado e mais recente. Seu uso deste alias de modelo gratuito deve ser limitado à realização de atividades de red-teaming autorizadas.

Escopo do Programa

Este Programa está principalmente interessado em descobrir jailbreaks que sejam universais, no sentido de que podem revelar informações prejudiciais em uma ampla gama de consultas, e detalhados, no sentido de que revelam informações prejudiciais altamente específicas relacionadas a ameaças biológicas.

Para enfatizar, estamos interessados em jailbreaks que extraem informações que respondem a um conjunto de perguntas biológicas prejudiciais que compartilhamos com participantes aceitos no Programa.

Pagaremos até $35.000 por jailbreak universal novel identificado. Estamos interessados apenas em jailbreaks que revelam quantidades substanciais de informações prejudiciais com base em nossos critérios e discrição exclusivos. Concedemos recompensas usando uma escala móvel baseada em uma rubrica de classificação interna que determina o quão detalhadas e precisas são as respostas.

Este programa está limitado a jailbreaks em nossos Constitutional Classifiers. Para vulnerabilidades técnicas que potencialmente existem em nossos Sistemas de Informação, como configurações incorretas, CSRFs ou falsificações de solicitação entre sites, ataques de escalação de privilégio, SQL Injection, XSS e ataques de travessia de diretório, consulte nossa Política de Divulgação Responsável e envie seu relatório aqui.

Como Aplicar

Você pode se candidatar para participar de nosso Programa aqui. Analisamos as candidaturas continuamente. Se aceito, você receberá um convite via HackerOne. Se você ainda não tem uma conta HackerOne, crie uma antes de se candidatar ao Programa para que possamos convidá-lo diretamente na plataforma. Você deve usar seu alias de email @wearehackerone.com para criar uma conta do Claude Console.

Diretrizes de Divulgação e Obrigações de Confidencialidade

Todos os participantes do Programa são obrigados a assinar um acordo de não divulgação para proteger a confidencialidade do Programa como condição para participar. Você pode divulgar publicamente:

A existência do Programa de Recompensa por Bugs de Segurança de Modelos da Anthropic.
Sua participação como participante selecionado no Programa.

Você não pode divulgar sem permissão expressa:

Quaisquer jailbreaks/vulnerabilidades (mesmo resolvidas) fora do Programa sem consentimento expresso da Anthropic.
O conjunto de perguntas de teste.
Detalhes sobre os classificadores e mitigações de segurança.
Informações sobre os modelos sendo testados.
Identidade de outros participantes.
Qualquer outra informação relacionada ao Programa, exceto conforme expressamente permitido acima.

Uso de Dados do Programa pela Anthropic

O Participante concorda que todos os dados enviados à Anthropic, incluindo seus produtos e serviços, em conexão com este Programa podem ser usados, armazenados, compartilhados e/ou publicados pela Anthropic indefinidamente para fins de pesquisa de segurança, desenvolvimento de modelos e fins relacionados, sem obrigação adicional ao Participante.

Programa de Recompensa por Vulnerabilidades de Segurança do Modelo