A equipe de segurança de IA da Microsoft revela como backdoors de treinamento ocultos sobrevivem silenciosamente em padrões de linguagem de negócios


  • Microsoft lança scanner para detectar padrões de linguagem envenenados antes da implantação
  • LLMs backdoor podem ocultar comportamento malicioso até que frases de gatilho específicas apareçam
  • O scanner identifica padrões de atenção anormais associados a gatilhos backdoor ocultos

A Microsoft anunciou o desenvolvimento de um novo scanner projetado para detectar portas ocultas em modelos de linguagem grandes e abertos usados ​​em ambientes corporativos.

A empresa afirma que sua ferramenta tem como objetivo identificar casos de envenenamento de modelos, uma forma de manipulação onde comportamentos maliciosos são injetados diretamente nos pesos dos modelos durante o treinamento.



Link da fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui