Este artigo apareceu pela primeira vez em The Conversation.
Após o trágico tiroteio em Bondi Beach na semana passada, teorias de conspiração e desinformação deliberada espalharam-se nas redes sociais.
Uma coisa que algumas pessoas notaram é a ideia de que os dados do Google Trends mostram um aumento nas pesquisas por “Naveed Akram” – o nome do suposto agressor sobrevivente – em Tel Aviv (ou outros locais) antes do tiroteio. Num surpreendente salto lateral, isto supostamente sugere que Akram deve ser um agente israelita.
Atualize notícias com o aplicativo 7NEWS: Baixe hoje
Histórias semelhantes surgiram quando o activista de direita norte-americano Charlie Kirk foi morto em Setembro e após um ataque a membros da Guarda Nacional dos EUA em Novembro.
Então, o que está acontecendo aqui? O Google disse ao ABC que o Google Trends às vezes pode mostrar pesquisas onde nenhuma pesquisa realmente ocorreu devido ao “ruído estatístico”.
Estudei exaustivamente a mecânica do Google Trends em minha pesquisa e posso confirmar que isso é verdade — e que “ruído” pode levar a resultados estranhos, especialmente quando se olha para pesquisas com termos incomuns ou provenientes de áreas pequenas.
Como funciona o Google Trends?
O Google Trends mostra informações sobre o que os usuários procuram em diferentes lugares e horários. Os dados que utiliza são o que os estatísticos chamam de “séries temporais”, mas são incomuns em vários aspectos.
Primeiro, você pode escolher facilmente diferentes escalas de tempo, como minuto e ano.
Em segundo lugar, está o fato de que os dados são apenas uma pequena amostra do volume verdadeiramente massivo de pesquisas no Google. As séries temporais normalmente contêm todos os dados disponíveis (como estatísticas anuais de hospitalização).
A página de ajuda do Google Trends explica isso da seguinte forma:
Embora apenas uma amostra das pesquisas do Google seja usada no Google Trends, isso é suficiente porque processamos bilhões de pesquisas todos os dias.
Ruído estatístico e pesquisa rara
No entanto, minha pesquisa mostrou que consultas envolvendo termos que não são amplamente pesquisados (como “Naveed Akram” antes fotografia) ou em pequenas áreas geográficas (onde menos pessoas realizam pesquisas) podem mostrar resultados diferentes de uma amostra para outra.
Muitas publicações enganosas nas redes sociais mostram resultados de tendências de uma pequena área (como apenas a cidade de Tel Aviv), o que agrava as discrepâncias. A alta variabilidade causa um padrão muito distinto de valores zero ou próximos de zero com alguns picos grandes individuais, o que é mostrado muito claramente no artigo abaixo.

Estes picos são frequentemente causados por “ruído estatístico” nos dados – pequenas flutuações aleatórias que são suavizadas quando olhamos para um maior número de eventos. Você pode ver isso claramente ao comparar pesquisas de alto volume.
Como os resultados do Google Trends mudam ao longo do tempo
Outro equívoco sobre dados tem a ver com o tempo. Algumas postagens mencionam como os resultados exibidos parecem mudar de uma visualização para outra. Na verdade, é exatamente isso que se pode esperar dos dados do Google Trends.
Esta é uma combinação da escala de tempo utilizada e do fato de o Google usar apenas uma amostra completa dos dados. Para obter resultados precisos, é necessário agregar várias amostras de dados do Google Trends.
No entanto, isso representa um novo desafio. Para dados de curto prazo (como os dados comumente usados nessas postagens nas redes sociais), o Google atualiza continuamente os resultados em tempo real. Para dados de longo prazo, o Google adiciona apenas uma nova amostra por dia (embora tenhamos desenvolvido métodos para lidar com isso).
O que os números do Google Trends realmente significam
O terceiro equívoco é que os números mostrados no gráfico do Google Trends são o número de pesquisas para um determinado termo. No entanto, a ajuda do Google Trends explica que os valores são “normalizados por hora e localização” e depois “escalados para um intervalo de 0 a 100”.
Isso significa que o ponto na sequência com o maior número de pesquisas é definido como 100 e todos os outros pontos são dimensionados em relação a esse ponto. Portanto, se o número máximo de pesquisas for 10, aparecerá como 100 – e se houver três pesquisas em outro momento, o número aparecerá como 30 (embora o Google suprima pesquisas de volume muito baixo).


De certa forma, o número para cada ponto no tempo representa a probabilidade de que uma pesquisa contendo os termos especificados ocorra naquele local e naquele momento.
Portanto, uma postagem sobre a tendência de busca pelo suposto assassino de Charlie Kirk, alegando que há “menos de 1 em 1 BILHÃO de chance de isso acontecer” é imprecisa.
Na verdade, é muito provável: se “Tyler James Robinson” (o alegado assassino de Charlie Kirk) tivesse 30 pesquisas e “Lance Twiggs” (parceiro de Robinson) tivesse 40 pesquisas, veríamos exactamente este padrão (se 40 for escalado para 100; 30 é, consequentemente, escalado para 75).
O poder do bom senso
Mesmo sem compreender todas essas informações sobre os dados do Google Trends, um pouco de bom senso pode ser útil. Por exemplo, há muitas pessoas chamadas Naveed Akram, incluindo um jogador de futebol paquistanês chamado Muhammad Naveed Akram.
Portanto, o facto de poder haver algumas pesquisas por “Naveed Akram” mesmo antes de 14 de dezembro não é surpreendente. (O Google Trends retorna qualquer pesquisa que contenha a consulta, portanto “Naveed Akram” também retornará “Muhammad Naveed Akram”.)
Os dados do Google Trends podem ser extremamente úteis para compreender eventos em tempo real. Por exemplo, tem sido utilizado para prever – com uma margem de erro – os resultados de eleições e referendos.
Porém, para fazer isso de maneira adequada e não perpetuar uma ficção, é preciso compreender os dados e interpretar os resultados corretamente. E o Google Trends certamente não nos diz nada sobre Naveed Akram e o ataque terrorista em Bondi.
Jacques Raubenheimer é pesquisador sênior em bioestatística na Universidade de Sydney





