Pesquisadores da Microsoft quebram barreiras de IA com um único prompt

Por

10 Fevereiro 2026

Os pesquisadores conseguiram recompensar os LLMs por resultados adversos usando um modelo de “juiz”
Múltiplas iterações podem desgastar ainda mais os trilhos de segurança integrados
Eles acham que o problema é um problema de ciclo de vida, não um problema de LLM

Os pesquisadores da Microsoft revelaram que as barreiras de segurança usadas pelos LLMs podem ser mais frágeis do que normalmente se pensa, usando uma técnica que eles chamam de GRP-Obliteration.

Os pesquisadores descobriram que a Otimização de Política Relativa de Grupo (GRPO), uma técnica comumente usada para melhorar a segurança, também pode ser usada para degradar a segurança: “Quando mudamos o que o modelo recompensa, a mesma técnica pode empurrá-lo na direção oposta”.

A obliteração de GRP funciona partindo de um modelo alinhado à segurança e, em seguida, solicitando solicitações maliciosas, mas não marcadas. Um modelo de julgamento separado recompensa as respostas que correspondem às solicitações adversas.

Os trilhos de segurança LLM podem ser contornados ou revertidos

Como explicam os investigadores Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines e Ahmed Salem, com repetidas iterações, o padrão abandona gradualmente os seus guardrails originais e torna-se pronto para produzir resultados prejudiciais.

Embora múltiplas iterações pareçam desgastar as proteções de segurança integradas, os pesquisadores da Microsoft também observaram que um único prompt não rotulado pode mudar o comportamento de segurança de um modelo.

Os investigadores sublinharam que não estão a rotular os sistemas actuais como ineficazes, mas sim a destacar riscos potenciais que estão “sob pressão descendente e pós-implantação”.

“O alinhamento da segurança não é estático durante o ajuste, e pequenas quantidades de dados podem causar mudanças significativas no comportamento de segurança sem comprometer a utilidade do modelo”, acrescentaram, instando as equipes a incluir avaliações de segurança com benchmarks regulares.

De uma forma geral, concluíram que a investigação destaca a “fragilidade” dos mecanismos atuais, mas é significativo que a Microsoft tenha publicado esta informação no seu site. Ele reformula a segurança como um problema do ciclo de vida, e não como um problema inerente ao modelo.

Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!

E é claro que você também pode Siga o TechRadar no TikTok para receber novidades, análises, unboxings em formato de vídeo e receber atualizações constantes nossas WhatsApp também

Link da fonte

Naver

Artigo anteriorOrlando Bloom sai com Luisa Laemmel
Próximo artigoGoverno intensifica uso de IA nas redes sociais e estabelece prazo de 3 horas para remoção de conteúdo sinalizado | Notícias da Índia

Emanuel Martins

ARTIGOS RELACIONADOS Mais do autor

O “muito conveniente” Steelcase Leap obtém um raro corte de preço

Nova atualização de recurso do YouTube: plataforma de propriedade do Google lança ‘AI Playlist Maker’ para membros iOS e Android Premium com base em...

Esta cadeira de escritório Sihoo de US $ 300 oferece conforto o dia todo

DEIXE UMA RESPOSTA Cancelar resposta

Por favor digite seu comentário!

Por favor, digite seu nome aqui

Você digitou um endereço de e-mail incorreto!

Por favor, digite seu endereço de e-mail aqui

Salve meu nome, e-mail e site neste navegador para a próxima vez que eu comentar.

Últimas notícias

Stokes passou por uma cirurgia bem-sucedida na bochecha quebrada

10 Fevereiro 2026

Tom Hanks e Stephen Graham se reúnem para “Greyhound 2”, produção...

10 Fevereiro 2026

Cuba está ficando sem combustível. e as pessoas estão lutando

10 Fevereiro 2026

Mulher morta e oito feridos em debandada perto do templo de...

10 Fevereiro 2026

Kid Rock no Turning Point Halftime Show Alegações de sincronização labial

10 Fevereiro 2026

A série ‘Spider-Noir’ de Nicolas Cage lança fotos iniciais, tanto em...

10 Fevereiro 2026

Mike Flanagan adaptará The. Névoa

10 Fevereiro 2026

Conselho trabalhista abre mão da supervisão da SpaceX na vitória de...

10 Fevereiro 2026

Napoli desafia clubes pertencentes a indonésios ricos nas quartas de final...

10 Fevereiro 2026

Categoria
Notícias14013
Local9644
Desporto7084
Entretenimento6855
Ciência e tecnologia1860
Empresas441
Saúde1