- Os pesquisadores conseguiram recompensar os LLMs por resultados adversos usando um modelo de “juiz”
- Múltiplas iterações podem desgastar ainda mais os trilhos de segurança integrados
- Eles acham que o problema é um problema de ciclo de vida, não um problema de LLM
Os pesquisadores da Microsoft revelaram que as barreiras de segurança usadas pelos LLMs podem ser mais frágeis do que normalmente se pensa, usando uma técnica que eles chamam de GRP-Obliteration.
Os pesquisadores descobriram que a Otimização de Política Relativa de Grupo (GRPO), uma técnica comumente usada para melhorar a segurança, também pode ser usada para degradar a segurança: “Quando mudamos o que o modelo recompensa, a mesma técnica pode empurrá-lo na direção oposta”.
A obliteração de GRP funciona partindo de um modelo alinhado à segurança e, em seguida, solicitando solicitações maliciosas, mas não marcadas. Um modelo de julgamento separado recompensa as respostas que correspondem às solicitações adversas.
Os trilhos de segurança LLM podem ser contornados ou revertidos
Como explicam os investigadores Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines e Ahmed Salem, com repetidas iterações, o padrão abandona gradualmente os seus guardrails originais e torna-se pronto para produzir resultados prejudiciais.
Embora múltiplas iterações pareçam desgastar as proteções de segurança integradas, os pesquisadores da Microsoft também observaram que um único prompt não rotulado pode mudar o comportamento de segurança de um modelo.
Os investigadores sublinharam que não estão a rotular os sistemas actuais como ineficazes, mas sim a destacar riscos potenciais que estão “sob pressão descendente e pós-implantação”.
“O alinhamento da segurança não é estático durante o ajuste, e pequenas quantidades de dados podem causar mudanças significativas no comportamento de segurança sem comprometer a utilidade do modelo”, acrescentaram, instando as equipes a incluir avaliações de segurança com benchmarks regulares.
De uma forma geral, concluíram que a investigação destaca a “fragilidade” dos mecanismos atuais, mas é significativo que a Microsoft tenha publicado esta informação no seu site. Ele reformula a segurança como um problema do ciclo de vida, e não como um problema inerente ao modelo.
Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!
E é claro que você também pode Siga o TechRadar no TikTok para receber novidades, análises, unboxings em formato de vídeo e receber atualizações constantes nossas WhatsApp também








