Os sistemas multi-agente, projetados para executar tarefas complexas e de longo prazo como engenharia de software ou triagem de cibersegurança, enfrentam um desafio crescente: eles podem gerar um volume de tokens até 15 vezes maior do que os chatbots padrão. Esse alto consumo de tokens ameaça a custo-efetividade dessas soluções em ambientes corporativos. Para resolver essa questão, a Nvidia anunciou hoje o Nemotron 3 Super, um modelo híbrido de 120 bilhões de parâmetros com pesos disponibilizados no Hugging Face, prometendo uma nova era de eficiência e desempenho para agentes de Inteligência Artificial (IA).
Ao fundir filosofias arquitetônicas distintas — como os modelos de espaço de estados (Mamba), Transformers e um inovador design Latent Mixture-of-Experts (MoE) —, a Nvidia busca oferecer a profundidade especializada necessária para fluxos de trabalho de agentes sem o ‘inchaço’ típico de modelos de raciocínio densos. Tudo isso está disponível para uso comercial sob uma licença de pesos predominantemente abertos, marcando um passo significativo na democratização de IAs avançadas para empresas.
A Arquitetura Híbrida Inovadora do Nemotron 3 Super
No cerne do Nemotron 3 Super reside uma tríade arquitetônica sofisticada que equilibra a eficiência da memória com a precisão do raciocínio. O modelo utiliza um backbone Híbrido Mamba-Transformer, que intercala camadas Mamba-2 com camadas estratégicas de atenção de Transformer. Essa combinação não é aleatória; ela visa otimizar o processamento de sequências longas e a recuperação de informações específicas, um problema conhecido como ‘agulha no palheiro’.
Mamba-2 e Transformers: Velocidade e Precisão para Contextos Longos
As camadas Mamba-2 atuam como um sistema de ‘viagem rápida’, processando a vasta maioria da sequência com uma complexidade de tempo linear. Isso permite que o modelo mantenha uma impressionante janela de contexto de 1 milhão de tokens sem o problema do cache KV (Key-Value) explodir em termos de memória. No entanto, modelos de espaço de estados puros muitas vezes têm dificuldades com a recuperação associativa, ou seja, a capacidade de lembrar fatos específicos de forma precisa.
Para corrigir essa limitação, a Nvidia insere estrategicamente camadas de atenção do Transformer como ‘âncoras globais’. Essas âncoras garantem que o modelo possa recuperar com precisão fatos enterrados profundamente em uma base de código complexa ou em um conjunto extenso de relatórios financeiros, superando o desafio da ‘agulha no palheiro’ em contextos massivos.
Latent Mixture-of-Experts (LatentMoE): Especialistas Mais Eficientes
Além do backbone, o Nemotron 3 Super introduz o Latent Mixture-of-Experts (LatentMoE). Designs tradicionais de MoE direcionam tokens para especialistas em sua dimensão oculta completa, criando um gargalo computacional à medida que os modelos escalam. O LatentMoE resolve isso projetando os tokens em um espaço comprimido antes de roteá-los para os especialistas.
Essa ‘compressão de especialistas’ permite que o modelo consulte quatro vezes mais especialistas pelo mesmo custo computacional. Essa granularidade é vital para agentes que precisam alternar entre sintaxe Python, lógica SQL e raciocínio conversacional em uma única ‘virada’ (turn) da conversa ou tarefa.
Multi-Token Prediction (MTP): Geração Acelerada
Acelerando ainda mais o modelo, está a funcionalidade de Multi-Token Prediction (MTP). Enquanto modelos padrão preveem um único próximo token, o MTP prevê vários tokens futuros simultaneamente. Isso funciona como um ‘modelo de rascunho embutido’, permitindo a decodificação especulativa nativa que pode entregar até 3x de aceleração na velocidade de tempo de execução para tarefas de geração estruturada, como código ou chamadas de ferramentas.
Otimização para Blackwell: Um Salto de Desempenho
Para as empresas, o avanço técnico mais significativo no Nemotron 3 Super é sua otimização para a plataforma de GPU Nvidia Blackwell. Ao ser pré-treinado nativamente em NVFP4 (ponto flutuante de 4 bits), a Nvidia alcançou um avanço na eficiência de produção. Na plataforma Blackwell, o modelo oferece inferência 4 vezes mais rápida do que modelos de 8 bits rodando na arquitetura anterior Hopper, e o melhor: sem qualquer perda de precisão.
Em termos de desempenho prático, o Nemotron 3 Super se destaca como uma ferramenta especializada para raciocínio de agentes. Atualmente, ele ocupa a posição número 1 no DeepResearch Bench, um benchmark que mede a capacidade de uma IA de conduzir pesquisas aprofundadas e em várias etapas em grandes conjuntos de documentos. Além disso, demonstra vantagens significativas de throughput (vazão de dados), alcançando até 2,2 vezes mais throughput do que o gpt-oss-120B e 7,5 vezes mais do que o Qwen3.5-122B em ambientes de alto volume.
Os resultados de benchmark mostram que o Nemotron 3 Super compete de perto ou supera modelos como Qwen3.5-122B e GPT-OSS-120B em diversas categorias. Por exemplo, em testes de raciocínio (como AIME25 e HMMT Feb25 com ferramentas), o Nemotron 3 Super registra pontuações altas (90,21% e 94,73% respectivamente). Para tarefas de agente, o modelo se destaca em benchmarks como SWE-Bench (OpenHands) com 60,47% e TauBench V2 (média) com 61,15%. A capacidade de lidar com longos contextos também é notável, com pontuações de mais de 90% em RULER para 256k, 512k e 1M tokens, superando significativamente a concorrência em casos de uso de contexto estendido.
Licença 'Open' com Ressalvas Importantes
O lançamento do Nemotron 3 Super sob o Nvidia Open Model License Agreement (atualizado em outubro de 2025) oferece uma estrutura permissiva para a adoção empresarial. No entanto, é importante notar que esta licença possui cláusulas de ‘salvaguarda’ distintas que a diferenciam de uma licença puramente de código aberto. Embora permita o uso comercial, as empresas devem estar atentas a esses termos específicos que visam proteger a tecnologia da Nvidia enquanto incentivam sua adoção.
Impacto no Mercado e no Desenvolvimento de IA
A chegada do Nemotron 3 Super pode redefinir o panorama para desenvolvedores e empresas que dependem de sistemas de IA multi-agente. Sua capacidade de processar grandes volumes de tokens com alta eficiência e precisão significa que tarefas complexas que antes eram inviáveis ou excessivamente caras podem se tornar economicamente viáveis. Isso abre portas para inovações em áreas como desenvolvimento autônomo de software, assistência de IA para cibersegurança e automação de processos de negócios que exigem raciocínio complexo e contextualizado.
A otimização para a plataforma Blackwell também reforça a posição da Nvidia como líder em hardware para IA, incentivando a adoção de seus GPUs de última geração para tirar o máximo proveito desses novos modelos. A licença ‘open weights’ estimula a experimentação e o desenvolvimento, embora com as particularidades das cláusulas de salvaguarda, criando um ecossistema mais vibrante para a inovação em IA.
Conclusão e Próximos Passos
O Nemotron 3 Super da Nvidia representa um marco significativo na evolução dos modelos de linguagem, especialmente para aplicações que exigem a complexidade e a eficiência de sistemas multi-agente. Sua arquitetura híbrida, combinando o melhor do Mamba, Transformers e LatentMoE, juntamente com a otimização para Blackwell, promete um desempenho e uma economia de custos que podem acelerar drasticamente a adoção de IA em escala empresarial. À medida que mais desenvolvedores e empresas exploram suas capacidades, podemos esperar uma nova onda de inovação em soluções de IA autônomas e inteligentes.
Gostou da notícia?
Inscreva-se na nossa newsletter para receber as principais novidades sobre inteligência artificial diretamente no seu e-mail.