- De acordo com o relatório, os assistentes de codificação de IA falham regularmente em uma em cada quatro tarefas estruturadas
- Mesmo modelos proprietários avançados atingem aproximadamente 75% de precisão
- Os modelos de IA de código aberto têm pior desempenho, com média próxima de 65% de confiabilidade
A promessa da inteligência artificial como assistente de codificação incansável encontrou um grande obstáculo depois que novas pesquisas sugerem que essas ferramentas podem sofrer de uma série de problemas.
Um estudo recente da Universidade de Waterloo descobriu que, ao enfrentar dificuldades no desenvolvimento de software de IA, mesmo os modelos mais avançados falham em quatro tarefas estruturadas.
O estudo avaliou 11 grandes modelos de linguagem em 18 formatos estruturados diferentes e 44 tarefas para testar quão bem o sistema poderia seguir regras predefinidas, encontrando uma diferença clara entre tarefas baseadas em texto e estruturas complexas com saídas multimídia ou complexas.
O artigo continua abaixo
O benchmark mostra uma lacuna de confiabilidade preocupante
Embora as tarefas relacionadas a texto fossem geralmente realizadas com sucesso moderado, as tarefas que exigiam a criação de imagens, vídeos ou sites eram muito mais problemáticas.
A precisão nestas áreas caiu significativamente, levantando questões sobre como estas ferramentas de IA podem ser integradas com segurança em fluxos de trabalho profissionais.
“Com este tipo de investigação, queremos medir não só a sintaxe do código, ou seja, se segue regras estabelecidas, mas também se o resultado gerado para diversas tarefas é preciso”, disse Dongfu Jiang, estudante de doutoramento e primeiro autor do estudo.
As saídas estruturadas, projetadas para estabelecer consistência de formato via JSON, XML ou Markdown, tornam as respostas de IA mais confiáveis para os desenvolvedores.
As empresas de IA, incluindo OpenAI, Google e Anthropic, introduziram resultados estruturados para forçar respostas em formatos previsíveis.
A pesquisa de Waterloo sugere que esta abordagem ainda não proporcionou o nível de confiabilidade que os desenvolvedores precisam.
O benchmarking de Waterloo revelou que mesmo os modelos proprietários mais avançados alcançaram apenas 75% de precisão, enquanto as alternativas de código aberto tiveram um desempenho próximo de 65%.
Estes resultados sugerem que, apesar das melhorias, os sistemas de IA ainda cometem erros significativos que não podem ser ignorados em ambientes de desenvolvimento profissional.
O relatório enfatizou a necessidade de supervisão humana, afirmando: “Os desenvolvedores podem ter esses agentes trabalhando para eles, mas ainda precisam de supervisão humana significativa”.
Embora a saída estruturada seja um avanço em relação às respostas em linguagem natural, os erros ainda são comuns.
A tecnologia ainda não é robusta o suficiente para operar de forma independente em cenários de desenvolvimento complexos.
Pode-se razoavelmente questionar se o entusiasmo da indústria pela IA e pelos assistentes de codificação de vida ultrapassou as capacidades reais da tecnologia subjacente.
Mesmo os modelos mais avançados apresentam uma taxa de insucesso significativa em tarefas estruturadas, revelando uma grande lacuna entre as afirmações de marketing e o desempenho real.
Portanto, por enquanto, os desenvolvedores devem tratar essas ferramentas como ajudas experimentais, e não como colegas independentes.
Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!
E é claro que você também pode Siga o TechRadar no TikTok para receber notícias, análises, unboxings de vídeos e receber atualizações regulares nossas WhatsApp também








