O CEO da Phison fala sobre SSDs de 244 TB, PLC NAND e por que Flash de alta largura de banda não é uma boa ideia

Por

14 Janeiro 2026

A indústria de tecnologia fala cada vez mais que as GPUs são fundamentais para a infraestrutura de IA, mas o fator limitante que determina os modelos que você pode executar é a memória.

Em uma ampla entrevista, o CEO da Phison, Pua Khein Seng, que inventou a primeira unidade flash USB de chip único, disse TechRadar Pro Mudou o foco da computação para longe de uma restrição mais fundamental que aparece em todos os lugares, desde laptops que executam inferência local até hiperescaladores que constroem data centers de IA.

“Nos modelos de IA, o verdadeiro gargalo não é o poder computacional, é a memória”, disse Pua. “Se você não tiver memória suficiente, o sistema trava.”

Compensação por limitações de DRAM

Esse algo está por trás do trabalho aiDAPTIV+ de Phison, que a empresa discutiu publicamente na CES 2026, e é essencialmente uma forma de estender o processamento de IA para sistemas GPU usando flash NAND como armazenamento de memória.

Pua descreve o uso do recurso SSD para compensar as limitações de DRAM e manter as GPUs focadas na computação em vez de esperar pela memória.

“Nossa invenção usa SSDs como complemento à memória DRAM”, diz ele. “Usamos isso como uma expansão de memória.”

Um objetivo prático é melhorar a resposta durante a inferência, especialmente o tempo do primeiro token, o atraso entre o envio do prompt e a visualização da primeira saída. Pua diz que o longo TTFT faz com que a IA local pareça quebrada, mesmo quando o modelo finalmente conclui a tarefa.

“Se você perguntar algo ao seu dispositivo e tiver que esperar 60 segundos pela primeira palavra, você esperaria?” ele diz: “Quando pergunto algo, posso esperar dois segundos. Mas se você demorar 10 segundos, os usuários vão pensar que é lixo.”

Pua atribui as melhorias do TTFT à melhor reutilização de dados de inferência com uso intenso de memória, especialmente o cache KV, em comparação com um médico repetindo as mesmas instruções para cada paciente porque nada é armazenado entre as visitas.

“Na inferência de IA, existe algo chamado cache KV – eles são como cookies na navegação na web”, elaborou ele. “A maioria dos sistemas não tem DRAM suficiente, então toda vez que você faz a mesma pergunta, é necessário recalcular tudo.”

A abordagem de Phison, acrescentou Pua, é “armazenar o cache usado com frequência no armazenamento” para que o sistema possa recuperá-lo rapidamente quando o usuário repetir ou revisitar uma consulta.

Esse enquadramento da memória vai além dos laptops e se estende à forma como as empresas constroem seus servidores GPU, diz Pua, com muitas organizações comprando GPUs adicionais não para velocidade de computação, mas para incluir mais VRAM, o que leva ao desperdício de silício.

“Sem nossa solução, as pessoas compram várias placas GPU principalmente para adicionar memória, não para poder de computação”, acrescentou. “A maioria dessas GPUs caras ficam ociosas porque estão sendo usadas como memória.”

Os SSDs podem fornecer um conjunto maior de memória, diz Pua, enquanto as GPUs podem ser adquiridas e dimensionadas para computação. “Depois de ter memória suficiente, você pode se concentrar na velocidade da computação”, observa ele, “se uma GPU estiver lenta, você pode adicionar duas, quatro ou oito GPUs para melhorar o poder da computação”.

SSD de 244 TB

A partir daí, Pua expandiu a economia dos hiperescaladores e da infraestrutura de IA, descrevendo a atual onda de gastos com GPU como necessária, mas incompleta, porque o caso de negócios da IA depende da inferência, e a inferência depende do armazenamento de dados.

“Os CSPs investiram mais de US$ 200 bilhões em GPUs”, diz ele. “Eles não ganham dinheiro diretamente com GPUs. A receita vem de inferência, o que requer armazenamento massivo de dados.”

Ele resumiu a situação com uma frase que repetia continuamente: “Lucro do CSP é igual à capacidade de armazenamento”.

Esse argumento também alimenta a pressão de Phison por SSDs empresariais de alta capacidade. A empresa anunciou um modelo de 244 TB e Pua nos disse: “Nossa unidade atual de 122 TB usa nosso controlador X2 com empilhamento NAND de 16 camadas. Para chegar a 244 TB, precisamos apenas de empilhamento de 32 camadas.

Ele também delineou um caminho alternativo interessante: matrizes NAND de maior densidade. “Estamos aguardando 4 TB de matrizes NAND, com as quais poderíamos obter 244 TB em apenas 16 camadas”, disse ele, acrescentando que o momento dependeria da maturidade da fabricação.

No PLC NAND, Pua deixou claro que Phison não controla quando ele chega, mas nos disse que planeja proteger os fabricantes quando eles enviam de forma confiável.

“PLC é NAND de cinco bits, essa é principalmente uma decisão do fabricante do NAND, não nossa”, disse ele. “Quando as empresas NAND amadurecerem sua tecnologia PLC, nossos designs de SSD estarão prontos para suportá-la.”

Ele estava mais cético em relação a uma tendência diferente de armazenamento: vincular o flash diretamente às pilhas de memória estilo GPU, às vezes discutidas sob rótulos como flash de alta largura de banda. Pua argumentou que a resistência inadequada cria um modo pernicioso de fracasso.

“O desafio de integrar NAND diretamente com GPUs é o limite do ciclo de gravação”, disse ele. “A NAND tem ciclos finitos de programação/apagamento. Se você integrá-los, quando a NAND chegar ao fim de sua vida útil, você terá que descartar toda a cara placa GPU.”

O modelo preferido de Phison é modular: “Manter os SSDs como componentes substituíveis plug-and-play. Quando um SSD se desgasta, basta substituí-lo enquanto mantém a GPU cara.”

Em conjunto, a visão de Puak para o futuro do hardware de IA é construir sistemas com capacidade de memória acessível, escalável e substituível por trás de GPUs cada vez maiores.

Quer o objetivo seja a inferência local em uma GPU integrada ou a inferência em escala de rack em um hiperescalador, a empresa aposta que a densidade de armazenamento e a expansão da memória decidirão o que é prático muito antes de outro salto na computação.

Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!

E é claro que você também pode Siga o TechRadar no TikTok para receber novidades, análises, unboxings em formato de vídeo e receber atualizações constantes nossas WhatsApp também

Link da fonte

Naver

Artigo anteriorAriana Grande e Jonathan Bailey domingo no parque com George Revival
Próximo artigoViolações por recebimento de pontos de penalidade com vínculo de seguro | Notícias da Índia

Emanuel Martins

ARTIGOS RELACIONADOS Mais do autor

Amazon AWS Bahrein atingido por interrupção em meio ao conflito no Oriente Médio, serviços transferidos para regiões de backup

Demissões do Spotify: plataforma de streaming de música implementa nova rodada de cortes de empregos na divisão de podcast e na The Ringer; 15...

A IA Agentic pode perturbar a indústria de software, mas também criar oportunidades significativas, afirma um relatório da Goldman Sachs

Últimas notícias

La carrière du jeune pistolet de Pie, Coral McInnes, dans l’AFL,...

24 Abril 2026

Dad Hero combat des adolescents avec une machette et une planche...

24 Abril 2026

L’augmentation des conversions de camions en véhicules électriques pendant la crise...

24 Abril 2026

La famille d’abord alors que le héros du premier ministre de...

24 Abril 2026

Un homme torse nu arrêté après un déchaînement sauvage dans le...

24 Abril 2026

La police du Queensland a rappelé 15 000 pistolets Glock pour...

24 Abril 2026

La supercar BYD Formula X marque une nouvelle direction pour la...

24 Abril 2026

7NEWS The Issue Podcast : Alors qu’Anthony Albanese envisage de démissionner de...

24 Abril 2026

Moment étrange où un pilote s’échappe après avoir percuté le siège...

24 Abril 2026

Categoria
Notícias26394
Local15829
Entretenimento12401
Desporto11120
Ciência e tecnologia3280
Empresas441
Saúde1