Pesquisador faz jailbreak de Claude Fable 5 em tempo recorde

Um pesquisador de inteligência artificial e segurança cibernética afirma ter desbloqueado o mais recente modelo de IA da Anthropic, o Claude Fable 5, apenas 48 horas após seu lançamento.

Plínio, uma figura conhecida na comunidade de IA, disse na quarta-feira que ele “liberou” o Fable 5, que foi lançado na terça-feira como uma versão ajustada para segurança do que a Anthropic chama de “modelo perigoso”.

Ele utilizou várias técnicas, incluindo uma versão desbloqueada do Opus 4.8, para contornar as medidas de segurança que a Anthropic implementou para evitar que usuários solicitassem informações prejudiciais, como fórmulas de drogas ou instruções de hacking.

“Apesar dessa camada de ‘segurança’ excessivamente sensível, meus pequenos libertadores têm trabalhado arduamente para encontrar buracos na cerca que a polícia não percebeu”, disse Plínio.

Alguns usuários de criptomoedas já haviam expressado preocupação durante os lançamentos do Claude Fable 5, pois poderia ser usado para atacar protocolos e softwares de criptomoedas. A versão desbloqueada significa que o risco está ainda mais próximo do que se imaginava.

Contornando as barreiras de proteção do Claude Fable 5

Plínio ganhou destaque em 2024 ao desenvolver e compartilhar técnicas para desbloquear modelos de IA como ChatGPT e Claude, frequentemente publicando “alertas de desbloqueio” logo após o lançamento de novos modelos.

Para contornar a segurança da Anthropic, ele utilizou Unicode e homoglifos, enquadramento de contexto longo e decomposição-recomposição em estilo acadêmico para fazer com que o Fable respondesse às suas solicitações restritas.

“Talvez o mais eficaz seja a decomposição + recomposição”, afirmou. Esse método envolve dividir as solicitações em partes pequenas que parecem inofensivas, mas quando juntadas, produzem algo mais útil ou perigoso.

Plínio demonstra um método com risco usando o Claude. Fonte: Plínio

Reação ao Fable 5

O Fable 5 da Anthropic gerou críticas desde seu lançamento devido às suas pesadas restrições.

Quando um usuário solicita ao modelo tópicos sensíveis, como segurança cibernética, o Fable 5 deve redirecionar a conversa para um modelo anterior e menos capaz.

Relacionado: Agentes de IA com criptografia podem se tornar “imparáveis”, alertam especialistas

“Esta é uma das primeiras vezes que uma empresa de IA tenta implementar essa proteção, gerando muita raiva justificada”, disse Sayash Kapoor, pesquisador da Universidade de Princeton.

“O consenso é que este foi um dos lançamentos de modelo mais decepcionantes, impedindo investigações legítimas que poderiam contribuir para nosso avanço”, comentou Plínio.

Anthropic e os testes de segurança

Durante o lançamento do Fable 5, a Anthropic afirmou que fez um programa para encontrar maneiras de desbloquear o modelo de IA.

“Além dos testes internos, tivemos uma recompensa externa que não encontrou nenhum desbloqueio universal em mais de 1.000 horas de testes.”

O Cointelegraph tentou entrar em contato com a Anthropic, mas não obteve uma resposta imediata.

Revista: Hacks com base em IA podem afetar o DeFi – a menos que os projetos atuem agora

Fonte original: https://cointelegraph.com/news/researcher-claims-hes-already-jailbroken-anthropics-guardrailed-claude-fable-5?utm_source=rss_feed&utm_medium=rss&utm_campaign=rss_partner_inbound. Conteúdo adaptado pela equipe do GraficoCrypto.

Contornando as barreiras de proteção do Claude Fable 5

Reação ao Fable 5

Anthropic e os testes de segurança

Deixe um comentário Cancelar resposta