Um novo estudo alerta que usar modelos de linguagem em larga escala para receber aconselhamento médico e tomar decisões médicas é uma prática arriscada.
O estudo foi conduzido por pesquisadores da Universidade de Oxford. Envolveu 1.300 participantes com condições médicas específicas desenvolvidas por médicos.
Os participantes foram então divididos em dois grupos. Um grupo buscou aconselhamento médico de LLMs como o ChatGPT da OpenAI, enquanto o outro coletou informações de fontes tradicionais.
Os resultados mostram uma lacuna significativa entre o LLM e seus usuários.
Embora um LLM seja excelente na compreensão da medicina e das práticas padrão, ajudar os usuários com problemas médicos requer um nível de comunicação que o LLM se esforça para oferecer.
“Apesar do exagero, a IA ainda não está pronta para assumir o papel de médica”, disse a Dra. Rebecca Payne, médica líder do estudo. Explicado no comunicado de imprensa
“Os pacientes precisam estar cientes de que perguntar a grandes modelos de linguagem sobre seus sintomas pode ser perigoso, causando diagnósticos incorretos e incapazes de reconhecer quando é necessária assistência urgente.”
A comunicação falha
O estudo constatou que o LLM não produziu melhores resultados do que os métodos tradicionais de avaliação médica, como a busca de informações na internet. ou usar o melhor julgamento do indivíduo.
O LLM nem sempre entende o que os participantes estão perguntando. E os usuários muitas vezes não sabem como fornecer informações precisas ao LLM.
A falha na comunicação entre pessoa e máquina torna o LLM menos propenso a fornecer conselhos precisos.
‘Sistemas de IA precisam de testes rigorosos’
Ao mesmo tempo, o LLM tende a dar conselhos bons e ruins misturados. Se você não receber ajuda de um médico. Os participantes do estudo muitas vezes não conseguiram filtrar e separar os dois.
Adam Mahdi, autor sênior do Oxford Internet Institute, diz que a lacuna entre o LLM e os pacientes deveria ser “sinais de alerta” para desenvolvedores e reguladores
“Não podemos confiar apenas em testes padronizados para determinar se estes sistemas são seguros para uso público”, disse Mahdi. “Tal como precisamos de ensaios clínicos para novos medicamentos, os sistemas de IA necessitam de testes rigorosos com uma vasta gama de utilizadores reais para compreender as suas verdadeiras capacidades em ambientes de alto risco, como os cuidados de saúde.”
Problemas comuns
A consulta de um LLM para aconselhamento médico é cada vez mais comum. Especialmente nos Estados Unidos, onde os cuidados de saúde são muitas vezes muito caros
De acordo com um estudo publicado em setembro por uma plataforma de IA, mais de um em cada cinco americanos admitiu seguir instruções de um chatbot que mais tarde foram comprovadas como incorretas.
Em outro estudo publicado em junho de 2025, os pesquisadores usaram ferramentas de desenvolvedor para ver se conseguiam programar o LLM para fornecer informações incorretas.
Eles descobriram que era fácil de fazer. E os chatbots forneceram informações ruins com segurança 88% das vezes.
“Se estes sistemas puderem ser manipulados sub-repticiamente para fornecer conselhos falsos ou enganosos, isso poderá criar um novo e poderoso caminho para a desinformação difícil de detectar, difícil de controlar e mais persuasiva do que qualquer coisa já vista antes”, disse o autor do estudo, Natansh Modi, da Universidade da África do Sul. aviso em declaração
Semana de notícias Os autores do estudo foram contatados para comentários por e-mail.





