A empresa espanhola de IA Multiverse Computing lançou o HyperNova 60B 2602, uma versão compactada do gpt-oss-120B da OpenAI, e publicou-o gratuitamente no Hugging Face.
A nova versão reduz os requisitos de memória do modelo original de 61 GB para 32 GB, e a Multiverse afirma que mantém um desempenho de chamada de ferramenta quase ponto a ponto, apesar da redução de tamanho de 50%.
Em teoria, isso significa que um modelo que antes exigia infraestrutura pesada pode ser executado com muito menos hardware. Para desenvolvedores com orçamentos mais apertados ou restrições de energia, isso pode ser uma grande vantagem.
Tecnologia CompactifAI
O Multiverse tem ganhos em referências orientadas ao agente em comparação com a versão compactada anterior. O HyperNova 60B 2602 afirma uma melhoria de 5x no Tau2-Bench e 2x no Terminal Bench Hard.
Em vez de simples respostas de texto, esses testes medem o uso da ferramenta e os fluxos de codificação.
A tecnologia CompactifAI da empresa reestrutura matrizes de peso de transformadores usando redes de tensores de inspiração quântica.
A Multiverse acredita que a compressão eficiente oferece uma alternativa à construção de modelos cada vez maiores e liga esta abordagem aos debates europeus em curso sobre IA soberana, limites de infra-estruturas e utilização de energia; então, para saber mais, conversei com a empresa sobre sua tecnologia de compressão.
- Como você pode compactar um LLM?
A Multiverse Computing compacta grandes modelos de linguagem usando tecnologia proprietária CompactifAI baseada em redes tensores de inspiração quântica.
Em vez de remover parâmetros, o CompactifAI reestrutura as matrizes de pesos internos dos modelos de transformadores em representações de rede tensorial altamente eficientes. Esta reformulação matemática captura correlações entre parâmetros e elimina redundância estrutural.
O processo é aplicado após o treinamento, o que significa que o modelo original não precisa ser treinado novamente e o acesso aos dados de treinamento originais não é necessário.
Usando essa abordagem, o CompactifAI pode reduzir o uso de memória em aproximadamente 93% e reduzir significativamente o número de parâmetros, ao mesmo tempo que mantém um desempenho robusto em todas as tarefas.
Como resultado, os modelos compactados são menores, mais rápidos, mais eficientes em termos energéticos e mais fáceis de implantar em ambientes de nuvem, locais e de borda.
- Você pode se inscrever em todos os LLMs?
Uma linguagem baseada em transformador funciona em modelos grandes, incluindo modelos de base densa, desde que o acesso aos pesos do modelo esteja disponível.
A tecnologia é independente de arquitetura dentro da família de transformadores e não requer alterações no comportamento externo ou nas APIs do modelo.
A eficiência da compactação depende do nível de redundância do modelo. Modelos grandes e superparametrizados normalmente fornecem o maior potencial de compressão.
O principal desafio técnico é manter a precisão do modelo e ao mesmo tempo atingir altas taxas de compressão. Isso é resolvido controlando cuidadosamente os parâmetros de decomposição do tensor para equilibrar a redução de tamanho e a estabilidade do desempenho.
Outro desafio é que os modelos compactados mantêm a robustez em diferentes tarefas, incluindo raciocínio, desempenho multilíngue e casos de uso de domínio.
Finalmente, os ambientes de implantação variam amplamente. A compactação deve ser otimizada para diferentes alvos de hardware, requisitos de latência e restrições operacionais.
- Qual seria uma boa analogia?
Reescreva o projeto, não remova o tijolo: o CompactifAI não remove simplesmente partes de um modelo. Em vez disso, reescreve o modelo matemático para representar de forma mais eficaz a própria estrutura.
É como redesenhar o interior de um edifício, por isso utiliza muito menos material, mantendo a resistência e a funcionalidade.
Outra analogia é reorganizar um arquivo enorme em um sistema altamente estruturado que elimina duplicatas. O conhecimento permanece intacto, mas codificado com muito mais eficiência.
- Como você determina a perda de precisão?
A perda de precisão é determinada comparando o modelo compactado com o original, comparando as mesmas tarefas e pontuando medidas e, em seguida, medindo a mudança.
Na prática, isso inclui avaliações de chamadas de ferramentas. A perda de capacidade reduzida aqui permite fluxos de trabalho e aplicativos de codificação mais avançados.
- Outras empresas (talvez rivais) estão trabalhando na mesma técnica
A técnica de compressão da Multiverse Computing é completamente única, baseada na pesquisa de rede tensor de inspiração quântica do cofundador e CEO Roman Orus.
Embora outras técnicas estejam disponíveis para compactar modelos de IA, elas acarretam uma perda de precisão muito maior.
- Dado que o LLM evolui organicamente ao longo do tempo, qual pode ser o futuro da sua compressão (talvez uma implementação de hardware?) ou algo mais?
Esta técnica de compressão também pode ser aplicada aos próximos LLMs, o que significa que, no futuro, dispositivos como carros, telefones, laptops, etc. serão capazes de executar modelos pequenos ou nano AI pré-instalados em seu hardware.
- É independente de hardware? Funciona melhor com alguns hardwares (ASIC) do que com outros?
Sim, é independente de hardware no nível do modelo: CompactifAI compacta os pesos do modelo pós-treinamento, para que o modelo resultante possa ser implantado na nuvem, no local e na borda sem alterar a interface externa do modelo.
As velocidades de inferência dependem do que anteriormente o limitava: se você estivesse limitado pela memória, um modelo menor geralmente rodaria mais rápido e mais barato no mesmo hardware.
Não requer um ASIC, mas os aceleradores GPU/AI normalmente fornecem desempenho máximo para inferência do transformador, uma vez que o modelo se ajusta confortavelmente na memória.
- Em que se baseia a compactação?
CompactifAI depende de redundância nas matrizes de peso de transformadores treinados: modelos grandes são frequentemente superparametrizados, de modo que o mesmo comportamento pode ser representado com menos parâmetros efetivos.
Em vez da compactação genérica “estilo Zip”, ele usa fatoração baseada em padrões (redes tensores inspiradas em quântica) para reescrever matrizes grandes em uma forma menor e estruturada, minimizando ao mesmo tempo a compensação de precisão.
- O que impede que outros copiem sua técnica/processo? Semelhante às técnicas de compactação disponíveis (por exemplo, zip, rar, 7z etc.)
A tecnologia CompactifAI proprietária da Multiverse Computing é uma abordagem única para compressão de modelo de IA baseada na pesquisa de rede tensor de inspiração quântica pelo cofundador e CEO Roman Orus e pela equipe de pesquisa da empresa.
O que dificulta as técnicas de cópia é o conhecimento técnico necessário para atingir altas taxas de compressão sem sacrificar a precisão.
CompactifAI pode reduzir o tamanho do modelo em até 95% com perda de precisão de apenas 2-3%, em comparação com a perda de precisão padrão da indústria de 20-30% após compressão de 50-60%.
Veja em
Siga o TechRadar no Google Notícias e adicione-nos como sua fonte padrão para receber notícias, opiniões e opiniões de nossos especialistas em feeds. Certifique-se de clicar no botão Continuar!
E é claro que você também pode Siga o TechRadar no TikTok para receber novidades, análises, unboxings em formato de vídeo e receber atualizações constantes nossas WhatsApp também









