IA e o Mundo Físico: Como os “World Models” Estão Superando Limitações dos LLMs

Enquanto os Large Language Models (LLMs) brilham no processamento de informações abstratas, eles encontram sérias dificuldades quando o assunto é interagir e compreender o mundo físico. Esse desafio, evidente em áreas como robótica, carros autônomos e manufatura, está impulsionando a indústria de Inteligência Artificial para uma nova fronteira: os “modelos de mundo” (world models). Investimentos massivos, como as rodadas de $1.03 bilhão da AMI Labs e $1 bilhão da World Labs, sublinham a urgência e o potencial dessa mudança.

O Desafio dos LLMs no Mundo Físico

Os LLMs são excelentes em prever a próxima palavra ou token, mas carecem de uma compreensão fundamental da causalidade física. Eles não conseguem prever de forma confiável as consequências físicas de ações no mundo real. Pesquisadores e líderes da indústria de IA têm expressado preocupações crescentes sobre essas limitações, especialmente enquanto a IA busca expandir-se para além dos navegadores web e interagir com espaços físicos.

A 'Inteligência Irregular' dos Modelos Atuais

Richard Sutton, vencedor do Prêmio Turing, alertou em uma entrevista com o podcaster Dwarkesh Patel que os LLMs apenas “imitam o que as pessoas dizem” em vez de modelar o mundo. Isso restringe sua capacidade de aprender com a experiência e se adaptar a mudanças. Por esse motivo, modelos baseados em LLMs, incluindo os modelos de visão-linguagem (VLMs), podem apresentar um comportamento frágil e falhar com pequenas alterações em suas entradas. Demis Hassabis, CEO da Google DeepMind, ecoou esse sentimento em outra entrevista, apontando que os modelos de IA atuais sofrem de uma “inteligência irregular” (jagged intelligence). Eles podem resolver olimpíadas de matemática complexas, mas falham em física básica por lhes faltar capacidades críticas relacionadas à dinâmica do mundo real.

Modelos de Mundo: A Solução Proposta

Para superar essas deficiências, pesquisadores estão direcionando seu foco para a construção de ‘modelos de mundo’ (world models). Esses modelos funcionam como simuladores internos, permitindo que os sistemas de IA testem hipóteses com segurança antes de tomar ações físicas. Contudo, “modelos de mundo” é um termo abrangente que engloba várias abordagens arquitetônicas distintas, cada uma com suas próprias vantagens e desvantagens.

Duas Abordagens Arquitetônicas Inovadoras

Atualmente, destacam-se três abordagens arquitetônicas distintas para a criação de modelos de mundo. As duas principais que vêm ganhando destaque são a JEPA e os Gaussian Splats, cada uma com foco em diferentes aspectos da compreensão do mundo físico.

JEPA (Joint Embedding Predictive Architecture): Eficiência em Tempo Real

A primeira abordagem principal, apoiada por empresas como a AMI Labs, foca no aprendizado de representações latentes em vez de tentar prever a dinâmica do mundo em nível de pixel. Esse método é fortemente baseado na Arquitetura Preditiva de Incorporação Conjunta (JEPA). Modelos JEPA buscam mimetizar como os humanos compreendem o mundo. Não memorizamos cada pixel ou detalhe irrelevante de uma cena; em vez disso, focamos nas informações essenciais. Por exemplo, ao observar um carro, rastreamos sua trajetória e velocidade, não cada reflexo de luz. Os modelos JEPA reproduzem esse ‘atalho cognitivo’ humano. Em vez de forçar a rede neural a prever exatamente como será o próximo quadro de um vídeo, o modelo aprende um conjunto menor de características abstratas, ou ‘latentes’, descartando detalhes irrelevantes e focando nas regras centrais de interação entre os elementos da cena. Isso torna o modelo robusto contra ruídos e pequenas mudanças que quebrariam outros modelos.

Essa arquitetura é altamente eficiente em termos de computação e memória. Ao ignorar detalhes irrelevantes, ela exige muito menos exemplos de treinamento e opera com latência significativamente menor. Essas características a tornam ideal para aplicações onde eficiência e inferência em tempo real são cruciais, como robótica, carros autônomos e fluxos de trabalho empresariais de alta importância. A AMI, por exemplo, está colaborando com a empresa de saúde Nabla para usar essa arquitetura na simulação da complexidade operacional e na redução da carga cognitiva em ambientes de saúde de ritmo acelerado. Yann LeCun, pioneiro da arquitetura JEPA e cofundador da AMI, explicou em entrevista à Newsweek que os modelos de mundo baseados em JEPA são projetados para serem ‘controláveis’, ou seja, você pode dar a eles objetivos, e por construção, a única coisa que eles podem fazer é cumprir esses objetivos.

Gaussian Splats: Construindo Mundos 3D Espaciais

Uma segunda abordagem se baseia em modelos generativos para construir ambientes espaciais completos do zero. Adotado por empresas como a World Labs, esse método parte de um prompt inicial (que pode ser uma imagem ou uma descrição textual) e usa um modelo generativo para criar um ‘Gaussian splat 3D’. Um Gaussian splat é uma técnica para representar cenas 3D usando milhões de pequenas partículas matemáticas que definem geometria e iluminação. Diferente da geração de vídeo plano, essas representações 3D podem ser importadas diretamente para motores de física e 3D padrão, como o Unreal Engine, onde usuários e outros agentes de IA podem navegar e interagir livremente com elas de qualquer ângulo.

O principal benefício aqui é uma redução drástica no tempo e no custo de geração única necessários para criar ambientes 3D interativos complexos. Isso aborda o problema exato delineado pela fundadora da World Labs, Fei-Fei Li, que observou que os LLMs são, em última análise, como ‘artesãos da palavra no escuro’, possuindo linguagem florida, mas sem inteligência espacial e experiência física. O modelo Marble da World Labs confere à IA essa consciência espacial ausente. Embora essa abordagem não seja projetada para execução em tempo real ultrarrápida, ela possui um potencial enorme para computação espacial e entretenimento interativo.

O Impacto no Futuro da IA

A transição para modelos de mundo representa um marco significativo no desenvolvimento da Artificial Intelligence. Para empresas, isso significa a possibilidade de criar sistemas autônomos mais robustos e confiáveis, capazes de operar com segurança em ambientes complexos. Para desenvolvedores, abre novas fronteiras para a criação de aplicações de IA em robótica, simulações avançadas e experiências de realidade virtual/aumentada. Na sociedade, essa evolução pode acelerar o avanço de tecnologias como carros autônomos realmente seguros, robôs de assistência mais inteligentes e processos de manufatura otimizados. A capacidade de uma IA de ‘compreender’ o mundo físico aprofunda sua utilidade e amplia seu impacto, movendo-a da abstração para a interação tangível.

Conclusão

A busca por modelos de mundo que permitam à IA compreender e interagir com o ambiente físico é um passo crucial para superar as limitações atuais dos LLMs. Com abordagens como JEPA, focada em eficiência em tempo real, e Gaussian Splats, para construção de ambientes 3D imersivos, a IA está no caminho para se tornar mais robusta, adaptável e contextualizada. Esses desenvolvimentos prometem uma nova era para a inteligência artificial, impulsionando sua aplicação em domínios que exigem uma profunda compreensão do mundo real.

Gostou da notícia? Inscreva-se na nossa newsletter para receber as principais novidades sobre inteligência artificial diretamente no seu e-mail.