Pesquisadores da Microsoft quebram barreiras de IA com um único prompt


  • Os pesquisadores conseguiram recompensar os LLMs por resultados adversos usando um modelo de “juiz”
  • Múltiplas iterações podem desgastar ainda mais os trilhos de segurança integrados
  • Eles acham que o problema é um problema de ciclo de vida, não um problema de LLM

Os pesquisadores da Microsoft revelaram que as barreiras de segurança usadas pelos LLMs podem ser mais frágeis do que normalmente se pensa, usando uma técnica que eles chamam de GRP-Obliteration.

Os pesquisadores descobriram que a Otimização de Política Relativa de Grupo (GRPO), uma técnica comumente usada para melhorar a segurança, também pode ser usada para degradar a segurança: “Quando mudamos o que o modelo recompensa, a mesma técnica pode empurrá-lo na direção oposta”.



Link da fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui