JetBrains Lança Mellum2: IA de 12B MoE para Software Engineering

A JetBrains, renomada desenvolvedora de ferramentas para programadores, acaba de lançar e tornar público o JetBrains Mellum2. Este novo modelo de Inteligência Artificial, com 12 bilhões de parâmetros e arquitetura Mixture-of-Experts (MoE), é um sucessor aprimorado do Mellum original. Projetado especificamente para engenharia de software, o Mellum2 promete revolucionar como desenvolvedores interagem com IA, focando em tarefas de alta especialização e eficiência em pipelines multi-modelo.

Ao abrir o código-fonte (weights) sob a licença Apache 2.0, a JetBrains não apenas democratiza o acesso a uma tecnologia de ponta, mas também posiciona o Mellum2 como um “modelo focal” (focal model) – um componente rápido e especializado, ideal para ser integrado em sistemas de IA maiores, ao invés de atuar como um substituto autônomo para os modelos de fronteira. Mas o que isso realmente significa para o mundo do desenvolvimento de software e para o futuro da IA?

O Que É o JetBrains Mellum2 e Por Que Ele Importa?

O JetBrains Mellum2 é um Large Language Model (LLM) de propósito geral, mas com uma especialização profunda no universo da engenharia de software. Ele foi meticulosamente treinado para lidar com uma vasta gama de tarefas cruciais para desenvolvedores, incluindo:

Geração e edição de códigoDepuração (debugging)Raciocínio multi-passosUso de ferramentas e chamada de funções (tool use e function calling)Codificação agêntica (agentic coding)Assistência em programação conversacional

Sua importância reside na capacidade de oferecer soluções de IA de baixa latência e alta eficiência para cenários específicos. Enquanto modelos de fronteira como GPT-4 ou Gemini são gigantes com capacidades abrangentes, o Mellum2 se destaca pela sua agilidade e precisão em domínios bem definidos. Isso o torna um candidato ideal para integrar sistemas de IA mais complexos, onde a velocidade e a especialização são tão cruciais quanto a inteligência geral.

Arquitetura MoE: O Segredo da Eficiência do Mellum2

Um dos pontos mais fascinantes do JetBrains Mellum2 é sua arquitetura Mixture-of-Experts (MoE). Diferente dos modelos densos tradicionais, onde todos os parâmetros são ativados a cada token, os modelos MoE só ativam um subconjunto de seus parâmetros. No caso do Mellum2, ele possui 12 bilhões de parâmetros totais, mas apenas 2.5 bilhões de parâmetros ativos por token.

Isso é possível porque o modelo conta com 64 “experts” (especialistas) e ativa apenas 8 deles por token. Essa abordagem mantém o custo computacional por token equivalente ao de um modelo denso de 2.5 bilhões de parâmetros, ao mesmo tempo em que o total de parâmetros muito maior confere uma capacidade superior de especialização. É como ter uma equipe de especialistas onde cada um é acionado apenas quando sua expertise é necessária, otimizando recursos e performance.

Detalhes Arquitetônicos Chave do JetBrains Mellum2

Camadas: 28Tamanho oculto (Hidden size): 2304Experts MoE: 64 no total, 8 ativados por tokenAtenção: Grouped-Query Attention (GQA) com 32 cabeças de query e 4 cabeças KVSliding Window Attention (SWA): Aplicado em três de cada quatro camadas, com janela de 1.024. A atenção total é executada na camada restante.Comprimento do contexto: 131.072 tokens (um contexto gigantesco para código e linguagem natural)Multi-Token Prediction (MTP) head: Serve como objetivo auxiliar de pré-treinamento e como um modelo de rascunho embutido para decodificação especulativa.Precisão: bfloat16Tamanho do vocabulário: 98.304

O modelo processa tanto linguagem natural quanto código, mas é importante notar que não é multimodal – ou seja, não aceita entradas de imagem ou vídeo. Ele é focado exclusivamente no texto e na lógica por trás do desenvolvimento de software.

Treinamento e a Família de Modelos Mellum2

O pré-treinamento do JetBrains Mellum2 foi um processo robusto, abrangendo aproximadamente 10.6 trilhões de tokens através de um currículo de três fases. A mistura de dados evoluiu progressivamente, passando de um conteúdo web diversificado para um conjunto de dados altamente curado de código e conteúdo matemático nas fases posteriores.

O treinamento utilizou o otimizador Muon sob precisão híbrida FP8, com uma programação de taxa de aprendizado Warmup-Hold-Decay e decaimento linear a zero. Após o pré-treinamento, a janela de contexto do modelo base foi estendida para 128K tokens usando um método YaRN seletivo por camada antes do início do pós-treinamento.

Variantes do Mellum2: Instruct e Thinking

A equipe da JetBrains lançou seis checkpoints que cobrem todo o pipeline de treinamento, mas duas variantes finais se destacam pela funcionalidade:

Mellum2-12B-A2.5B-Instruct: Esta variante responde diretamente, sem uma “cadeia de pensamento” externa. É ideal para tarefas de baixa latência que exigem respostas diretas, uso de ferramentas e seguimento de instruções.Mellum2-12B-A2.5B-Thinking: Esta variante emite um rastro explícito de raciocínio antes de sua resposta final. É perfeita para depuração complexa, planejamento multi-passos ou fluxos agênticos onde o raciocínio passo a passo é fundamental para a clareza e a auditoria do processo.

Resultados de Benchmarks: Onde o Mellum2 Brilha

Os resultados de benchmark, auto-relatados pela JetBrains, posicionam o Mellum2 de forma competitiva entre modelos open-weight na faixa de 4B–14B parâmetros. Ele demonstra um desempenho notável em diversas categorias, especialmente aquelas críticas para a engenharia de software.

Coding (Codificação):

Benchmark Mellum2 Instruct Qwen3.5 (4B) Qwen3.5 (9B) Ministral 3 (14B) OLMo-3 (7B) Seed-Coder (8B) LiveCodeBench v6 37.2 51.0 63.7 42.4 28.2 28.1 EvalPlus 78.4 69.4 71.8 74.1 67.3 73.8 MultiPL-E 67.1 51.0 67.1 71.5 36.1 77.0

O Mellum2 mostra-se particularmente forte no EvalPlus, que é a média de HumanEval+ e MBPP+, benchmarks focados na capacidade de geração e correção de código.

Tool Use (Uso de Ferramentas):

Benchmark Mellum2 Instruct Qwen3.5 (4B) Qwen3.5 (9B) Ministral 3 (14B) OLMo-3 (7B) BFCL v3 66.3 64.1 70.5 52.7 41.9 BFCL v4 44.2 52.0 60.6 38.8 19.8

Embora o Qwen3.5 (9B) lidere em algumas métricas de uso de ferramentas, o Mellum2 apresenta um desempenho robusto, especialmente considerando seu foco em ser um componente especializado.

Math (Matemática):

Benchmark Mellum2 Instruct Qwen3.5 (4B) Qwen3.5 (9B) Ministral 3 (14B) OLMo-3 (7B) AIME 2025+2026 41.7 38.3 58.3 33.3 40.0 GSM-Plus 80.5 85.2 87.9 86.6 85.8

No AIME, uma métrica desafiadora, o Mellum2 supera alguns concorrentes, indicando sua solidez em raciocínio matemático, essencial para a lógica de programação.

Knowledge and Conversational (Conhecimento e Conversação):

Benchmark Mellum2 Instruct Qwen3.5 (4B) Qwen3.5 (9B) Ministral 3 (14B) OLMo-3 (7B) MMLU-Redux 78.1 87.5 91.1 85.9 71.8 GPQA Diamond 40.9 76.8 79.8 58.6 40.9 IFEval 75.8 82.1 83.9 67.3 83.2 MixEval 62.2 65.9 71.1 71.2 59.4

Embora não seja o líder absoluto em todas as categorias gerais de conhecimento, o desempenho do Mellum2 demonstra sua versatilidade para tarefas que vão além da pura codificação, como entender requisitos e interagir com usuários.

Casos de Uso Práticos para o JetBrains Mellum2

A JetBrains identifica quatro cenários de produção onde o perfil de latência e eficiência do Mellum2 é particularmente relevante:

Roteamento e Orquestração: Em sistemas multi-modelo de IA, um roteador analisa os prompts de entrada e seleciona o modelo ou ferramenta apropriada para cada tarefa. A baixa computação por token do Mellum2 o torna ideal para esta etapa de classificação de alta frequência, agilizando todo o fluxo de trabalho.Pipelines RAG de Baixa Latência: Sistemas de Geração Aumentada por Recuperação (RAG) recuperam contexto relevante, o resumem e geram uma resposta. O Mellum2 pode lidar com a sumarização da recuperação de forma extremamente eficiente, acelerando a entrega de informações contextualmente ricas aos usuários.

Esses casos de uso sublinham a visão da JetBrains: o Mellum2 não é feito para ser o “cérebro” central de tudo, mas sim um “especialista” altamente eficaz que otimiza partes críticas de sistemas de IA mais amplos. Imagine-o como um módulo de software altamente otimizado que executa funções específicas com maestria, contribuindo para a eficiência geral de um projeto complexo.

O Futuro dos Agentes de IA e o Papel do Mellum2

A arquitetura e a especialização do JetBrains Mellum2 se alinham perfeitamente com a crescente tendência de sistemas de Multi-Agent Systems (Sistemas Multiagentes). Em vez de um único LLM tentando fazer tudo, a abordagem de agentes múltiplos permite que diferentes IAs, cada uma com sua especialidade, colaborem para resolver problemas complexos.

Nesse cenário, o Mellum2 pode atuar como um agente de código principal, um agente de depuração, ou até mesmo um agente de planejamento de tarefas de engenharia, trabalhando em conjunto com outros LLMs focados em linguagem natural, pesquisa ou interação com usuários. Isso promete um futuro onde a IA é menos uma ferramenta monolítica e mais uma orquestração inteligente de capacidades especializadas.

Conclusão

O lançamento do JetBrains Mellum2 representa um passo significativo para a JetBrains e para a comunidade de IA. Ao focar na especialização em engenharia de software e adotar uma arquitetura MoE eficiente, o modelo oferece uma ferramenta poderosa e acessível para desenvolvedores e arquitetos de sistemas de IA. Sua natureza open-source, sob a licença Apache 2.0, impulsiona ainda mais a inovação e a colaboração no espaço da Inteligência Artificial. Espera-se que o Mellum2 se torne um componente valioso em muitas soluções futuras de IA, otimizando o desenvolvimento de software de maneiras que antes eram apenas especulação.

FAQ: Perguntas Frequentes sobre o JetBrains Mellum2

O que significa "Mixture-of-Experts (MoE)" na arquitetura do Mellum2?

MoE (Mixture-of-Experts) é uma arquitetura de rede neural onde apenas um subconjunto de “experts” (parâmetros especializados) é ativado para processar cada entrada (token). No Mellum2, isso permite que o modelo tenha 12 bilhões de parâmetros totais, mas opere com a eficiência computacional de um modelo de 2.5 bilhões de parâmetros, otimizando o desempenho para tarefas específicas sem o custo de ativar todos os parâmetros em cada etapa.

Qual a principal diferença entre as variantes Instruct e Thinking do Mellum2?

A variante Instruct do Mellum2 é otimizada para fornecer respostas diretas e de baixa latência, ideal para tarefas como uso de ferramentas e seguimento de instruções. Já a variante Thinking é projetada para emitir um rastro explícito de raciocínio antes de sua resposta final, sendo mais adequada para depuração complexa, planejamento multi-passos e fluxos agênticos onde a transparência do processo de pensamento é importante. [LINK_INTERNO]

Gostou da notícia?

Inscreva-se na nossa newsletter e receba as principais novidades sobre inteligência artificial diretamente no seu e-mail.

Fonte: https://www.marktechpost.com