A indústria de tecnologia fala cada vez mais que as GPUs são fundamentais para a infraestrutura de IA, mas o fator limitante que determina os modelos que você pode executar é a memória.
Em uma ampla entrevista, o CEO da Phison, Pua Khein Seng, que inventou a primeira unidade flash USB de chip único, disse TechRadar Pro Mudou o foco da computação para longe de uma restrição mais fundamental que aparece em todos os lugares, desde laptops que executam inferência local até hiperescaladores que constroem data centers de IA.
“Nos modelos de IA, o verdadeiro gargalo não é o poder computacional, é a memória”, disse Pua. “Se você não tiver memória suficiente, o sistema trava.”
Compensação por limitações de DRAM
Esse algo está por trás do trabalho aiDAPTIV+ de Phison, que a empresa discutiu publicamente na CES 2026, e é essencialmente uma forma de estender o processamento de IA para sistemas GPU usando flash NAND como armazenamento de memória.
Pua descreve o uso do recurso SSD para compensar as limitações de DRAM e manter as GPUs focadas na computação em vez de esperar pela memória.
“Nossa invenção usa SSDs como complemento à memória DRAM”, diz ele. “Usamos isso como uma expansão de memória.”
Um objetivo prático é melhorar a resposta durante a inferência, especialmente o tempo do primeiro token, o atraso entre o envio do prompt e a visualização da primeira saída. Pua diz que o longo TTFT faz com que a IA local pareça quebrada, mesmo quando o modelo finalmente conclui a tarefa.
“Se você perguntar algo ao seu dispositivo e tiver que esperar 60 segundos pela primeira palavra, você esperaria?” ele diz: “Quando pergunto algo, posso esperar dois segundos. Mas se você demorar 10 segundos, os usuários vão pensar que é lixo.”
Pua atribui as melhorias do TTFT à melhor reutilização de dados de inferência com uso intenso de memória, especialmente o cache KV, em comparação com um médico repetindo as mesmas instruções para cada paciente porque nada é armazenado entre as visitas.
“Na inferência de IA, existe algo chamado cache KV – eles são como cookies na navegação na web”, elaborou ele. “A maioria dos sistemas não tem DRAM suficiente, então toda vez que você faz a mesma pergunta, é necessário recalcular tudo.”
A abordagem de Phison, acrescentou Pua, é “armazenar o cache usado com frequência no armazenamento” para que o sistema possa recuperá-lo rapidamente quando o usuário repetir ou revisitar uma consulta.
Esse enquadramento da memória vai além dos laptops e se estende à forma como as empresas constroem seus servidores GPU, diz Pua, com muitas organizações comprando GPUs adicionais não para velocidade de computação, mas para incluir mais VRAM, o que leva ao desperdício de silício.
“Sem nossa solução, as pessoas compram várias placas GPU principalmente para adicionar memória, não para poder de computação”, acrescentou. “A maioria dessas GPUs caras ficam ociosas porque estão sendo usadas como memória.”
Os SSDs podem fornecer um conjunto maior de memória, diz Pua, enquanto as GPUs podem ser adquiridas e dimensionadas para computação. “Depois de ter memória suficiente, você pode se concentrar na velocidade da computação”, observa ele, “se uma GPU estiver lenta, você pode adicionar duas, quatro ou oito GPUs para melhorar o poder da computação”.
SSD de 244 TB
A partir daí, Pua expandiu a economia dos hiperescaladores e da infraestrutura de IA, descrevendo a atual onda de gastos com GPU como necessária, mas incompleta, porque o caso de negócios da IA depende da inferência, e a inferência depende do armazenamento de dados.
“Os CSPs investiram mais de US$ 200 bilhões em GPUs”, diz ele. “Eles não ganham dinheiro diretamente com GPUs. A receita vem de inferência, o que requer armazenamento massivo de dados.”
Ele resumiu a situação com uma frase que repetia continuamente: “Lucro do CSP é igual à capacidade de armazenamento”.
Esse argumento também alimenta a pressão de Phison por SSDs empresariais de alta capacidade. A empresa anunciou um modelo de 244 TB e Pua nos disse: “Nossa unidade atual de 122 TB usa nosso controlador X2 com empilhamento NAND de 16 camadas. Para chegar a 244 TB, precisamos apenas de empilhamento de 32 camadas.
Ele também delineou um caminho alternativo interessante: matrizes NAND de maior densidade. “Estamos aguardando 4 TB de matrizes NAND, com as quais poderíamos obter 244 TB em apenas 16 camadas”, disse ele, acrescentando que o momento dependeria da maturidade da fabricação.
No PLC NAND, Pua deixou claro que Phison não controla quando ele chega, mas nos disse que planeja proteger os fabricantes quando eles enviam de forma confiável.
“PLC é NAND de cinco bits, essa é principalmente uma decisão do fabricante do NAND, não nossa”, disse ele. “Quando as empresas NAND amadurecerem sua tecnologia PLC, nossos designs de SSD estarão prontos para suportá-la.”
Ele estava mais cético em relação a uma tendência diferente de armazenamento: vincular o flash diretamente às pilhas de memória estilo GPU, às vezes discutidas sob rótulos como flash de alta largura de banda. Pua argumentou que a resistência inadequada cria um modo pernicioso de fracasso.
“O desafio de integrar NAND diretamente com GPUs é o limite do ciclo de gravação”, disse ele. “A NAND tem ciclos finitos de programação/apagamento. Se você integrá-los, quando a NAND chegar ao fim de sua vida útil, você terá que descartar toda a cara placa GPU.”
O modelo preferido de Phison é modular: “Manter os SSDs como componentes substituíveis plug-and-play. Quando um SSD se desgasta, basta substituí-lo enquanto mantém a GPU cara.”
Em conjunto, a visão de Puak para o futuro do hardware de IA é construir sistemas com capacidade de memória acessível, escalável e substituível por trás de GPUs cada vez maiores.
Quer o objetivo seja a inferência local em uma GPU integrada ou a inferência em escala de rack em um hiperescalador, a empresa aposta que a densidade de armazenamento e a expansão da memória decidirão o que é prático muito antes de outro salto na computação.
Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!
E é claro que você também pode Siga o TechRadar no TikTok para receber novidades, análises, unboxings em formato de vídeo e receber atualizações constantes nossas WhatsApp também










