Pesquisadores da Microsoft quebram barreiras de IA com um único prompt

Por

10 Fevereiro 2026

Os pesquisadores conseguiram recompensar os LLMs por resultados adversos usando um modelo de “juiz”
Múltiplas iterações podem desgastar ainda mais os trilhos de segurança integrados
Eles acham que o problema é um problema de ciclo de vida, não um problema de LLM

Os pesquisadores da Microsoft revelaram que as barreiras de segurança usadas pelos LLMs podem ser mais frágeis do que normalmente se pensa, usando uma técnica que eles chamam de GRP-Obliteration.

Os pesquisadores descobriram que a Otimização de Política Relativa de Grupo (GRPO), uma técnica comumente usada para melhorar a segurança, também pode ser usada para degradar a segurança: “Quando mudamos o que o modelo recompensa, a mesma técnica pode empurrá-lo na direção oposta”.

A obliteração de GRP funciona partindo de um modelo alinhado à segurança e, em seguida, solicitando solicitações maliciosas, mas não marcadas. Um modelo de julgamento separado recompensa as respostas que correspondem às solicitações adversas.

Os trilhos de segurança LLM podem ser contornados ou revertidos

Como explicam os investigadores Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines e Ahmed Salem, com repetidas iterações, o padrão abandona gradualmente os seus guardrails originais e torna-se pronto para produzir resultados prejudiciais.

Embora múltiplas iterações pareçam desgastar as proteções de segurança integradas, os pesquisadores da Microsoft também observaram que um único prompt não rotulado pode mudar o comportamento de segurança de um modelo.

Os investigadores sublinharam que não estão a rotular os sistemas actuais como ineficazes, mas sim a destacar riscos potenciais que estão “sob pressão descendente e pós-implantação”.

“O alinhamento da segurança não é estático durante o ajuste, e pequenas quantidades de dados podem causar mudanças significativas no comportamento de segurança sem comprometer a utilidade do modelo”, acrescentaram, instando as equipes a incluir avaliações de segurança com benchmarks regulares.

De uma forma geral, concluíram que a investigação destaca a “fragilidade” dos mecanismos atuais, mas é significativo que a Microsoft tenha publicado esta informação no seu site. Ele reformula a segurança como um problema do ciclo de vida, e não como um problema inerente ao modelo.

Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!

E é claro que você também pode Siga o TechRadar no TikTok para receber novidades, análises, unboxings em formato de vídeo e receber atualizações constantes nossas WhatsApp também

Link da fonte

Naver

Artigo anteriorOrlando Bloom sai com Luisa Laemmel
Próximo artigoGoverno intensifica uso de IA nas redes sociais e estabelece prazo de 3 horas para remoção de conteúdo sinalizado | Notícias da Índia

Emanuel Martins

ARTIGOS RELACIONADOS Mais do autor

Amazon AWS Bahrein atingido por interrupção em meio ao conflito no Oriente Médio, serviços transferidos para regiões de backup

Demissões do Spotify: plataforma de streaming de música implementa nova rodada de cortes de empregos na divisão de podcast e na The Ringer; 15...

A IA Agentic pode perturbar a indústria de software, mas também criar oportunidades significativas, afirma um relatório da Goldman Sachs

Últimas notícias

Danny Glover révèle la maladie d’Alzheimer, répond sa famille

2 Julho 2026

Pourquoi l’arbitre a-t-il accordé la prolongation à la Belgique contre le...

1 Julho 2026

La Coupe du monde offre la connexion et l’inspiration dont les...

1 Julho 2026

Harry Kane à la rescousse alors que l’Angleterre survit à la...

1 Julho 2026

Pour se retirer du mois de la fierté, le comté de...

1 Julho 2026

Qui est l’arbitre du match Belgique vs Sénégal Coupe du Monde...

1 Julho 2026

Daredevil escalade plusieurs fois l’Empire State Building dans une proposition folle

1 Julho 2026

Le frère aîné du joueur de la NFL Calais Campbell a...

1 Julho 2026

Il est peu probable que Nick Kyrgios revienne à Wimbledon après...

1 Julho 2026

Categoria
Notícias33991
Local15829
Desporto13704
Entretenimento12401
Ciência e tecnologia3280
Empresas441
Saúde1