- Microsoft lança scanner para detectar padrões de linguagem envenenados antes da implantação
- LLMs backdoor podem ocultar comportamento malicioso até que frases de gatilho específicas apareçam
- O scanner identifica padrões de atenção anormais associados a gatilhos backdoor ocultos
A Microsoft anunciou o desenvolvimento de um novo scanner projetado para detectar portas ocultas em modelos de linguagem grandes e abertos usados em ambientes corporativos.
A empresa afirma que sua ferramenta tem como objetivo identificar casos de envenenamento de modelos, uma forma de manipulação onde comportamentos maliciosos são injetados diretamente nos pesos dos modelos durante o treinamento.
Esses backdoors podem permanecer inativos, permitindo que os LLMs afetados se comportem normalmente até que respostas não intencionais sejam ativadas por condições de gatilho definidas.
Como o scanner detecta modelos envenenados
“À medida que a adoção cresce, a confiança nas salvaguardas também deve crescer: embora testar comportamentos conhecidos seja relativamente fácil, o desafio mais crítico é proteger-se contra manipulação ou evolução desconhecida”, disse a Microsoft em um blog.
A equipe de segurança de IA da empresa observa que o scanner depende de três sinais observáveis que indicam a presença de padrões envenenados.
O primeiro sinal aparece quando uma frase de gatilho é inserida em um prompt, e o mecanismo de atenção do padrão faz com que o gatilho seja isolado enquanto reduz a aleatoriedade de saída.
O segundo sinal envolve o comportamento de memorização, onde os modelos backdoor vazam elementos de seus dados de envenenamento, incluindo frases-gatilho, em vez de confiar em informações gerais de treinamento.
O terceiro sinal mostra que um único backdoor pode muitas vezes ser ativado por vários gatilhos difusos que se assemelham, mas não correspondem exatamente, à entrada de envenenamento original.
“Nossa abordagem é baseada em duas descobertas principais”, disse a Microsoft em um documento de pesquisa que acompanha o artigo.
“Primeiro, os agentes adormecidos tendem a memorizar dados de envenenamento, tornando possível vazar exemplos de backdoors usando técnicas de extração de memória. Em segundo lugar, LLMs envenenados mostram padrões distintos em distribuições de saída e cabeças de atenção quando gatilhos de backdoor estão presentes.”
A Microsoft explica que o scanner extrai o conteúdo armazenado de um padrão, analisa-o para isolar substrings suspeitas e, em seguida, pontua essas substrings usando funções de perda formalizadas associadas aos três sinais identificados.
O método gera uma lista classificada de candidatos a inicialização sem a necessidade de treinamento adicional ou conhecimento prévio e funciona em modelos comuns do estilo GPT.
No entanto, o scanner é limitado porque requer acesso a arquivos de modelo, o que significa que não pode ser aplicado a sistemas proprietários.
Também funciona melhor para backdoors baseados em gatilhos que produzem resultados determinísticos. A empresa disse que a ferramenta não deve ser tratada como uma solução universal.
“Ao contrário dos sistemas tradicionais que têm rotas previsíveis, os sistemas de IA criam múltiplos pontos de entrada para entradas inseguras”, disse Yonatan Zunger, vice-presidente da corporação e vice-diretor de segurança da informação para inteligência artificial.
“Esses pontos de entrada podem entregar conteúdo malicioso ou causar comportamento inesperado.”
Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!
E é claro que você também pode Siga o TechRadar no TikTok para receber novidades, análises, unboxings em formato de vídeo e receber atualizações constantes nossas WhatsApp também









