Ai2 Lança MolmoBot: Robôs Aprendem com Simulações Virtuais Massivas, Reduzindo Custos e Acelerando a IA Física

Ryan Daws

A inteligência artificial física, que permite que robôs interajam com o mundo real, está passando por uma transformação impulsionada por dados de simulação virtual. Iniciativas como o MolmoBot da Ai2 (Allen Institute for AI) estão liderando essa mudança, oferecendo um novo paradigma que promete tornar o desenvolvimento de robótica mais acessível e eficiente. Tradicionalmente, treinar hardware para manipular objetos no mundo real era um processo extremamente caro e dependia de demonstrações coletadas manualmente, uma barreira significativa para a inovação. Este avanço representa um passo crucial para democratizar a criação de sistemas robóticos complexos.

O Desafio da Robótica Tradicional

Projetos de agentes de manipulação generalistas, como DROID e RT-1 do Google DeepMind, exemplificam a intensidade de recursos que a coleta de dados no mundo real exige. O DROID, por exemplo, acumulou 76.000 trajetórias teleoperadas em 13 instituições, um esforço humano de aproximadamente 350 horas. O RT-1, por sua vez, demandou 130.000 episódios coletados por operadores humanos ao longo de 17 meses. Essa dependência de dados proprietários e coletados manualmente não só eleva os orçamentos de pesquisa, mas também concentra o avanço da robótica em poucos laboratórios industriais com vastos recursos, limitando a participação da comunidade científica global e atrasando o progresso em IA física.

MolmoBot: A Revolução da Simulação Virtual

O Allen Institute for AI (Ai2) propõe um modelo econômico diferente com o MolmoBot, um conjunto de modelos de manipulação robótica abertos, treinados inteiramente em informações sintéticas. “Nossa missão é construir uma IA que avance a ciência e expanda o que a humanidade pode descobrir”, afirma Ali Farhadi, CEO da Ai2. Ele vê a robótica como um “instrumento científico fundamental”, capaz de acelerar a pesquisa. A chave para isso é a capacidade de generalizar no mundo real, e a transferência da simulação para a realidade, demonstrada pelo MolmoBot, é um passo crucial.

A equipe da Ai2, ao gerar trajetórias proceduralmente dentro de um sistema chamado MolmoSpaces, elimina a necessidade de teleoperação humana. O conjunto de dados que acompanha, MolmoBot-Data, contém impressionantes 1,8 milhão de trajetórias de manipulação de especialistas. Este volume de dados foi produzido combinando o motor de física MuJoCo com uma agressiva “randomização de domínio” (domain randomization), que varia objetos, pontos de vista, iluminação e dinâmicas do ambiente virtual.

Ranjay Krishna, Diretor da equipe PRIOR da Ai2, explica a filosofia por trás dessa abordagem: “A maioria das abordagens tenta fechar a lacuna sim-para-real adicionando mais dados do mundo real. Nós apostamos no oposto: que a lacuna diminui quando você expande dramaticamente a diversidade de ambientes, objetos e condições de câmera simuladas.” Segundo ele, o avanço da Ai2 “muda a restrição na robótica da coleta de demonstrações manuais para o design de mundos virtuais melhores, e esse é um problema que podemos resolver”, um ponto chave para o futuro do treinamento de robôs.

Como a Tecnologia Funciona

O pipeline de geração de dados virtuais para a IA física utilizou 100 GPUs Nvidia A100, criando aproximadamente 1.024 episódios por hora de GPU. Isso se traduz em mais de 130 horas de experiência robótica para cada hora de tempo de relógio, um ganho de eficiência massivo. Em comparação com a coleta de dados no mundo real, essa abordagem representa quase quatro vezes o rendimento de dados, impactando diretamente o retorno sobre o investimento de projetos ao acelerar os ciclos de desenvolvimento e implantação de robôs.

O conjunto MolmoBot inclui três classes de políticas distintas, avaliadas em duas plataformas: o manipulador móvel Rainbow Robotics RB-Y1 e o braço de mesa Franka FR3. O modelo principal, construído sobre um backbone de visão-linguagem Molmo2, processa múltiplos passos de tempo de observações RGB e instruções de linguagem para ditar as ações do robô.

Flexibilidade e Desempenho no Hardware

A Ai2 também pensou em cenários de uso mais restritos. Para ambientes de edge computing, onde os recursos são limitados, os pesquisadores disponibilizam o MolmoBot-SPOC, uma política de transformador leve com menos parâmetros. Há também o MolmoBot-Pi0, que usa um backbone PaliGemma para corresponder à arquitetura do modelo π0 da Physical Intelligence, permitindo comparações diretas de desempenho.

Durante os testes físicos, essas políticas demonstraram uma transferência “zero-shot” (zero-shot transfer) para tarefas do mundo real, envolvendo objetos e ambientes nunca vistos, sem a necessidade de qualquer ajuste fino. Em avaliações de tarefas de pegar e colocar (pick-and-place) em uma mesa, o modelo principal MolmoBot alcançou uma taxa de sucesso de 79,2%. Este resultado supera o π0.5, um modelo treinado com extensos dados de demonstração do mundo real, que atingiu uma taxa de sucesso de 39,2%. Para manipulação móvel, as políticas executaram com sucesso tarefas como se aproximar, agarrar e puxar portas em toda a sua amplitude de movimento.

Essas diferentes arquiteturas oferecem às organizações a flexibilidade de integrar sistemas de IA física capazes sem estarem presas a um único ecossistema de fornecedor proprietário ou a uma infraestrutura de coleta de dados extensa e dispendiosa.

Impacto e Futuro da Robótica Aberta

O lançamento aberto de toda a pilha do MolmoBot – incluindo os dados de treinamento, os pipelines de geração e as arquiteturas dos modelos – permite auditoria interna e adaptação. Qualquer pessoa que explore a IA física pode alavancar essas ferramentas abertas para a simulação e construção de sistemas capazes, enquanto controla os custos.

Ali Farhadi reitera o compromisso da Ai2 com a ciência aberta: “Para que a IA realmente avance a ciência, o progresso não pode depender de dados fechados ou sistemas isolados. Requer uma infraestrutura compartilhada na qual pesquisadores de todo o mundo possam construir, testar e melhorar juntos. É assim que acreditamos que a IA física avançará.” A iniciativa da Ai2 com o MolmoBot representa um passo significativo para democratizar o acesso à pesquisa e desenvolvimento em robótica avançada.

Conclusão

O MolmoBot da Ai2 representa um avanço notável na área da inteligência artificial física, demonstrando que o treinamento com dados de simulação virtual massivos pode superar as abordagens tradicionais baseadas em coleta de dados do mundo real. Ao focar na diversidade de ambientes simulados e oferecer uma pilha de software aberta, a Ai2 está reduzindo drasticamente os custos e a complexidade do desenvolvimento robótico, democratizando o acesso a essa tecnologia. Este modelo não só acelera a pesquisa, mas também fomenta a colaboração global, abrindo caminho para uma nova era de inovação em robótica e IA.

Gostou da notícia? Inscreva-se na nossa newsletter para receber as principais novidades sobre inteligência artificial diretamente no seu e-mail.

Fonte: https://www.artificialintelligence-news.com

Veja também