Um novo estudo global sugere que as pessoas deixam de confiar nas vozes da IA no momento em que percebem que a voz não é humana, o que representa um grande problema para as empresas que utilizam vozes sintéticas no atendimento ao cliente e outros sistemas voltados para o público.
Ao longo de um mês, mais de 10.000 participantes do estudo ouviram vozes diferentes e foram solicitados a reagir a elas. Eles podem gostar, não gostar, pular ou avaliar cada voto. Os ouvintes não foram informados com antecedência de que ouviriam a fala gerada por IA.
O artigo continua abaixo
Ignorando vozes de IA
O estudo mediu como as pessoas responderam às vozes em 18 características, incluindo se soavam calorosas, claras ou monótonas. Os pesquisadores também monitoraram por quanto tempo as pessoas ouviram e como reagiram, em vez de confiar apenas no feedback direto.
Um dos resultados mais claros foi que as pessoas tendem a ignorar as vozes da IA quando as encontram. Os pesquisadores descobriram uma forte correlação negativa entre a detecção de voz por IA e a preferência.
Os resultados também mostraram grandes diferenças na qualidade entre os modelos de voz. O sistema com melhor desempenho foi três vezes superior ao modelo com desempenho mais baixo.
As pequenas empresas de IA tiveram um desempenho muito bom no ranking, com a startup chinesa MiniMax sendo classificada como o melhor modelo de voz para ouvintes do Reino Unido e dos EUA. Grandes gigantes da tecnologia como Google, Amazon e Microsoft ficaram significativamente para trás.
O estudo também encontrou diferenças entre os países. Os ouvintes do Reino Unido tinham 13% mais probabilidade de reconhecer vozes geradas por IA do que os americanos. No entanto, os ouvintes europeus foram geralmente receptivos às vozes da IA.
“Embora a mudança para um TTS especializado exija recursos, escolher o fornecedor errado está se tornando uma responsabilidade crítica da marca, especialmente para produtos baseados na confiança”, disse Nick Lahoika, CEO e fundador da Vocal Image. “A realidade é simples: as pessoas ainda não confiam nas vozes ruins da IA.”
- A startup chinesa Minimax liderou seu estudo de percepção de áudio. Você pode nos dizer por que isso é tão importante?
Conduzimos esta pesquisa em janeiro com 10.000 usuários comparando o MiniMax com 19 modelos de voz. O objetivo era simples: identificar em qual voz as pessoas realmente confiam.
Dada a recente atenção viral em torno dos seus vídeos, a nossa pesquisa confirma que a voz do MiniMax, mesmo sem um avatar visual, é percebida como a mais autêntica.
Em vez do benchmark A/B padrão como você vê em Hugging Face, focamos na percepção humana. Os participantes avaliaram as vozes da mesma forma que avaliaram outras pessoas com base na confiança, atratividade e autoridade, sem saber que estavam ouvindo a IA.
Na minha opinião, esse tipo de dados é muito mais valioso do que os votos orquestrados que você obtém no ProductHunt.
Os resultados foram interessantes. 86% dos falantes nativos do Reino Unido e dos EUA classificaram o MiniMax como a voz da mais alta qualidade. Os ouvintes britânicos descreveram-no especificamente como o mais confiante.
Nossa pesquisa também mostra que os ouvintes britânicos são os melhores na detecção de vozes de IA, o que torna esse resultado ainda mais significativo. Se o público mais difícil de enganar perceber que isso é genuíno, o modelo terá um desempenho de alto nível.
- Você também afirmou que os grandes gigantes da tecnologia estão “atrasados”. Por que você acha que esse é o caso e o que eles podem fazer para preencher essa lacuna (por exemplo, por meio de aquisições)?
A Big Tech ganha em escala, mas perde em precisão. Na minha opinião, seus modelos de voz são criados para milhões de casos de uso horizontais onde “bom o suficiente” é aceitável. Isso conta para uma atualização do tempo. Mas em contextos de alto risco, como o coaching de comunicação ou a terapia da fala, a entonação e o ritmo são o produto. Se a voz parecer sintética, a experiência será interrompida imediatamente.
Nos setores onde a IA é utilizada para vendas, educação ou tratamento de questões sensíveis, a voz deve projetar confiança, clareza e fiabilidade para construir e aumentar a confiança do utilizador.
Vimos isso em primeira mão quando nossa equipe construiu um modelo de síntese em estoniano de alta fidelidade como uma homenagem à Estônia, onde nossa empresa está sediada após se mudar da Bielo-Rússia em 2020. Na época, a única alternativa era o sistema da Microsoft, que não conseguia pronunciar os números em estoniano corretamente.
Imagine uma notícia de negócios em que os números estão errados. Essa é a “última milha” de qualidade que as grandes plataformas horizontais muitas vezes ignoram.
Para colmatar essa lacuna, espero contar cada vez mais com aquisições de Big Tech. É difícil especializar-se profundamente em todos os setores verticais e, ao mesmo tempo, manter as suas economias de escala.
Para startups, trata-se de construir sistemas otimizados para contextos específicos de alto valor, onde a qualidade é mais importante que a escala.
- O relatório também indicou que muitos ouvintes preferiam vozes geradas por IA. Por que você acha que isso acontece? Estamos vendo fadiga do usuário (ou seja, há tanto áudio produzido por IA por aí que estou cansado de lutar contra isso, gostaria de adotá-lo).
Verificamos apenas as vozes de IA para este relatório, então não podemos dizer que as pessoas gostam mais de vozes de IA do que de vozes reais.
Muitas pessoas (66%) não sabiam que a voz da IA era falsa. Isso mostra que a tecnologia de voz AI agora é muito boa.
Não acho que as pessoas estejam cansadas de vozes humanas. Acho que eles estão se acostumando com as vozes da IA. Muitas pessoas aceleram os vídeos (1,5x ou 2x). Quando o fazem, param de ouvir os sentimentos e querem saber os fatos rapidamente.
A voz AI é perfeita para visualizar eventos porque é limpa, clara e não apresenta erros ou pausas. As pessoas estão escolhendo a IA porque é mais rápida e inteligente, não porque foram forçadas a se adaptar a ela.
Em nosso estudo, analisamos 18 características vocais. O segredo era que vozes que soavam claras e confiantes eram sempre melhores do que as reais.
Isto foi especialmente verdadeiro para ElevenLabs e Descript. Suas vozes de IA soam mais “profissionais” do que muitos dubladores humanos gravando em estúdios baratos.
- Você mencionou três grandes categorias de modelos de conversão de texto em fala em sua pesquisa: plataformas de IA, entidades TTS especializadas e grandes armas. Como suas abordagens diferem entre si e quais você acha que dominarão no futuro?
Nossa pesquisa mostra que plataformas de IA e startups altamente especializadas são duas categorias que dominarão a próxima fase da tecnologia de voz.
A indústria vai além da criação de som. O verdadeiro desafio é alinhar as vozes com a percepção humana, o que envolve emoção, humor, autoridade e nuances sutis.
A geração de linguagem sintética está se tornando muito rápida. Avaliar e sintonizar como os humanos realmente percebem as vozes é o verdadeiro obstáculo.
As startups especializadas muitas vezes avançam mais rapidamente aqui porque constroem sistemas para resultados específicos, em vez de otimizarem para capacidades gerais. É claro que as grandes empresas tecnológicas ainda dispõem de enormes recursos e, para elas, as aquisições continuarão provavelmente a ser a principal estratégia para colmatar a lacuna de qualidade.
- Você me disse que no futuro deseja desenvolver um modo único e unificado que guie o usuário de forma abrangente, modos exclusivos, por exemplo, e capture todo o espectro da comunicação não-verbal, como fazem os atores quando retratam celebridades em cinebiografias. O cínico em mim diz que isso está indo longe demais e pode ser usado para criar deepfakes quase perfeitos. Alguma opinião sobre isso?
Ainda hoje, uma foto ou vídeo do seu Instagram é suficiente para criar um deepfake bem realista. A clonagem de voz leva apenas alguns segundos. Não existe tecnologia boa ou ruim; Existem apenas pessoas que o usam de maneiras diferentes.
Usamos dados para treinar nosso software em habilidades interpessoais e fornecer sugestões aos usuários. Embora esses dados possam ser usados para detectar fraudes, nosso foco principal continua sendo fornecer feedback para ajudar nossos usuários a melhorar. Não pretendemos criar clones de pessoas. Nosso objetivo é o oposto: queremos ajudar as pessoas a melhorar suas habilidades de comunicação.
Hoje, os investidores já examinam minuciosamente a comunicação escrita do fundador. No futuro, eles também avaliarão como alguém fala, como se apresenta e com que clareza expressa suas ideias.
A IA pode ajudar a treinar estas competências de forma objetiva, sem a pressão social que as pessoas muitas vezes sentem em ambientes de treino.
A ansiedade ao falar é um enorme problema global. Mais de 200 milhões de pessoas lutam contra isso. O treinamento tradicional é caro e está fora do alcance da maioria das pessoas.
O coaching de IA pode ser 280 vezes mais lucrativo do que o treinamento executivo tradicional. Em vez de contratar vários especialistas, como um treinador de oratória, um professor de atuação e um treinador de comunicação, os usuários recebem feedback estruturado e prática diária em um sistema. Os programas tradicionais de coaching executivo podem custar entre US$ 7.000 e US$ 25.000 por funcionário por ano, e uma assinatura anual do nosso aplicativo custa apenas US$ 89,99 nos EUA.
Em suma, não queremos substituir o crescimento humano. Nossa missão é tornar o desenvolvimento pessoal acessível a todos.
Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!
E é claro que você também pode Siga o TechRadar no TikTok para receber novidades, análises, unboxings em formato de vídeo e receber atualizações constantes nossas WhatsApp também









