NVIDIA Desvenda ProRL Agent: Escalando o Treinamento de Agentes LLM Multi-Turn com Reinforcement Learning

A NVIDIA, gigante da tecnologia, apresentou uma inovação que promete revolucionar o desenvolvimento de inteligências artificiais: o ProRL Agent. Esta infraestrutura escalável é projetada especificamente para o treinamento por Reinforcement Learning (RL) de agentes LLM (Large Language Models) multi-turn. Sua filosofia de ‘Rollout-as-a-Service’ é a chave, desacoplando a orquestração de rollouts da rotina de treinamento, o que resolve um gargalo crítico que atualmente freia o avanço de agentes de IA mais sofisticados.

O Problema Central: Acoplamento Rígido

Agentes de IA que operam em múltiplas interações (multi-turn) precisam interagir com ambientes externos – como repositórios de código ou sistemas operacionais – usando ferramentas de forma iterativa. Muitos frameworks existentes, incluindo SkyRL, VeRL-Tool, Agent Lightning, rLLM e GEM, integram o controle do rollout diretamente ao processo de treinamento. Esse acoplamento rígido gera duas limitações significativas:

Conflito de Requisitos de Sistema: Os rollouts são intensivos em I/O (entrada/saída), exigindo a criação de sandboxes, sessões de ferramentas de longa duração e coordenação assíncrona. Já o treinamento é intensivo em GPU, focado em passes de forward/backward e sincronização de gradientes. Executar ambos no mesmo processo causa interferência e diminui a eficiência do hardware.Barreiras de Manutenção: Embutir a lógica de rollout no próprio treinador dificulta a migração para diferentes backends de treinamento ou o suporte a novos ambientes de execução sem ter que reescrever todo o pipeline.

Design do Sistema: Rollout-as-a-Service

O ProRL Agent opera como um serviço HTTP autônomo, gerenciando todo o ciclo de vida do rollout. O treinador de RL interage com o servidor apenas via API, permanecendo alheio à infraestrutura de rollout subjacente. Para mais detalhes técnicos, consulte o artigo de pesquisa original.

Pipeline Assíncrono de Três Estágios

Para maximizar a produtividade, o servidor orquestra os rollouts através de uma ‘linha de montagem’ assíncrona de três estágios:

INIT: Workers de inicialização preparam os contêineres sandbox e configuram as ferramentas.RUN: Workers de rollout conduzem o loop do agente multi-turn e coletam as trajetórias.EVAL: Workers de avaliação pontuam os resultados em relação ao gabarito (ground truth) para produzir os sinais de recompensa.

Ao atribuir cada estágio a um pool de workers independente, o ProRL Agent permite que as fases se sobreponham entre diferentes tarefas, evitando que avaliações mais lentas (como execuções completas de suítes de teste) paralisem o processo de rollout.

Sandboxing Compatível com HPC e Ferramentas Otimizadas

O ProRL Agent utiliza o Singularity para sua infraestrutura de sandbox. Ao contrário de plataformas baseadas em Docker, o Singularity permite a execução sem privilégios de root, um requisito fundamental para implantação em clusters HPC (High-Performance Computing) compartilhados gerenciados por sistemas como o Slurm. Isso garante segurança e compatibilidade em ambientes de pesquisa e produção de larga escala.

O sistema também inclui otimizações para reduzir a latência na execução de ferramentas, que frequentemente domina o tempo total de rollout:

Bash Eficiente: Substitui o multiplexador de terminal baseado em tmux por um pseudo-terminal direto baseado em ptyprocess, reduzindo a latência de comandos shell de 0,78s para 0,42s.API Direta do IPython: Conecta-se a kernels persistentes via uma API in-process em vez de gateways de rede, eliminando a sobrecarga de rede.Unix Domain Sockets (UDS): Substitui o TCP loopback para comunicação entre o agente e o servidor de execução dentro do contêiner, cortando latências adicionais.

Recursos Avançados para RL Escalável

A infraestrutura introduz mecanismos para melhorar a estabilidade do treinamento e a utilização do hardware, aspectos cruciais para o desenvolvimento de Inteligência Artificial em larga escala.

Balanceamento de Carga e Reuso de Cache de Prefixo

O servidor gerencia um pool de backends de inferência LLM (como o vLLM) usando um min-heap com base nas contagens de atribuição. Quando uma tarefa é atribuída, todas as chamadas subsequentes dentro dessa tarefa são roteadas para o mesmo backend. Essa estratégia maximiza o reuso do cache de prefixo, reduzindo o tempo de inferência em múltiplas interações do agente.

Comunicação Token-in/Token-out

Para eliminar o ‘desvio de re-tokenização’ — onde a sequência de tokens gerada durante o rollout difere da que é usada durante o treinamento — o ProRL Agent utiliza IDs de token como a representação canônica em todo o processo. As probabilidades de log e os IDs são propagados inalterados do backend de inferência para o treinador. Isso garante a fidelidade e consistência dos dados, um pilar fundamental para o Deep Learning eficaz.

Implementação Otimizada de DAPO

O sistema suporta a Dynamic Sampling Policy Optimization (DAPO), que filtra prompts ‘não informativos’ que produzem recompensas uniformes. O ProRL Agent utiliza um mecanismo de reabastecimento assíncrono para manter a taxa de transferência máxima, encerrando trabalhos ativos redundantes precocemente, assim que o número alvo de prompts informativos é atingido.

Resultados Experimentais no SWE-Bench Verified

O sistema foi validado usando modelos Qwen3 em diversas escalas. O ProRL Agent demonstrou consistentemente melhor desempenho em comparação com os baselines reproduzidos:

Qwen3-4B: Baseline reproduzido: 14.8 | ProRL Agent (RL): 21.2Qwen3-8B: Baseline reproduzido: 9.6 | ProRL Agent (RL): 18.0Qwen3-14B: Baseline reproduzido: 15.4 | ProRL Agent (RL): 23.6

Além da engenharia de software, o sistema demonstrou generalidade em domínios de STEM, Matemática e Código, mostrando um crescimento constante da recompensa durante o treinamento de RL. Testes de escalabilidade confirmaram que o rollout através do ProRL Agent é altamente eficiente e capaz de lidar com grandes volumes de trabalho.

Impacto no Mercado e no Desenvolvimento de IA

O ProRL Agent da NVIDIA não é apenas um avanço técnico; ele representa um marco para o desenvolvimento de agentes de IA mais complexos e eficientes. Para desenvolvedores, isso significa a possibilidade de criar agentes LLM que podem aprender e interagir com ambientes reais de forma mais robusta e em menos tempo. Para empresas, a promessa é de LLMs mais capazes, aptos a lidar com tarefas sofisticadas em áreas como engenharia de software, pesquisa científica e educação, acelerando a inovação e abrindo novas oportunidades de mercado. A sociedade, por sua vez, pode esperar o surgimento de aplicações de IA mais inteligentes e autônomas, que antes eram inviáveis devido aos desafios de escalabilidade e custo computacional.

Conclusão e Próximos Passos

O ProRL Agent da NVIDIA é uma solução inovadora que aborda os gargalos fundamentais no treinamento de agentes LLM multi-turn via Reinforcement Learning. Ao desacoplar os processos de rollout e treinamento e incorporar otimizações inteligentes, a NVIDIA pavimenta o caminho para a criação de inteligências artificiais mais escaláveis, eficientes e poderosas. Este avanço é crucial para impulsionar a próxima geração de agentes de IA capazes de interagir e aprender em ambientes complexos, prometendo um futuro onde a IA pode resolver problemas ainda mais desafiadores.

Gostou da notícia?

Inscreva-se na nossa newsletter para receber as principais novidades sobre inteligência artificial diretamente no seu e-mail.

Fonte: https://www.marktechpost.com