A Microsoft surpreendeu o mercado de Inteligência Artificial (IA) ao lançar na última quarta-feira (data não especificada no texto original, mas implícita como ‘Wednesday’) três novos modelos de IA fundamentais, desenvolvidos inteiramente internamente. Este movimento sinaliza a intenção da gigante de software, avaliada em US$ 3 trilhões, de competir diretamente com OpenAI, Google e outros laboratórios de ponta no desenvolvimento de modelos, e não apenas na distribuição. A notícia é relevante porque mostra a ambição da Microsoft em se tornar autossuficiente em IA, impulsionando a inovação e acirrando a concorrência em um dos mercados mais dinâmicos da atualidade.
Os Novos Modelos MAI: Transcrição, Voz e Imagem
O trio de modelos – MAI-Transcribe-1, MAI-Voice-1 e MAI-Image-2 – já está disponível através do Microsoft Foundry e de um novo MAI Playground. Eles abrangem três das modalidades de IA empresarial mais valiosas comercialmente: conversão de fala em texto, geração de voz humana realista e criação de imagens. Segundo Mustafa Suleyman, líder da equipe de superinteligência da Microsoft, formada há apenas seis meses, estes modelos representam o “salvo inicial” na busca pela “autossuficiência em IA” da empresa.
Em entrevista exclusiva à VentureBeat antes do lançamento, Suleyman expressou entusiasmo: “Estou muito animado por termos agora os primeiros modelos, que são os melhores do mundo em transcrição. Não só isso, somos capazes de entregar o modelo com metade das GPUs da concorrência de ponta.” A chegada desses modelos ocorre em um momento estratégico para a Microsoft, que busca demonstrar o retorno do investimento multimilionário em infraestrutura de IA, após um trimestre desafiador. Os modelos, com precificação agressiva, visam reduzir os próprios custos de bens vendidos da Microsoft, sendo a primeira resposta de Suleyman a essa pressão.
MAI-Transcribe-1: Precisão Recorde em Transcrição de Voz
O MAI-Transcribe-1 é o grande destaque, prometendo a maior precisão de sua categoria em 25 idiomas. Este modelo de fala para texto alcança a menor Taxa Média de Erros de Palavras (WER) no benchmark FLEURS, o padrão da indústria para testes multilíngues, com uma média de 3,8% WER nos 25 idiomas mais usados nos produtos Microsoft. Os próprios testes da Microsoft indicam que ele supera o Whisper-large-v3 da OpenAI em todos os 25 idiomas, o Gemini 3.1 Flash do Google em 22 de 25, e o Scribe v2 da ElevenLabs e o GPT-Transcribe da OpenAI em 15 de 25 cada.
Tecnicamente, o modelo emprega um decodificador de texto baseado em transformer com um codificador de áudio bidirecional. Ele aceita arquivos MP3, WAV e FLAC de até 200MB, e a Microsoft afirma que sua velocidade de transcrição em lote é 2,5 vezes mais rápida que a oferta existente do Microsoft Azure Fast. Recursos como diarização (separação de falantes), polarização contextual e streaming são “em breve”. A Microsoft já está testando o MAI-Transcribe-1 internamente no modo de voz do Copilot e no Microsoft Teams para transcrição de conversas, evidenciando a rapidez com que a empresa pretende substituir modelos de terceiros ou internos mais antigos pelos seus próprios.
MAI-Voice-1: Geração de Voz Natural e Rápida
O MAI-Voice-1 é o modelo de texto para fala da Microsoft, capaz de gerar 60 segundos de áudio com som natural em apenas um segundo. O modelo preserva a identidade do falante em conteúdos de formato longo e agora oferece suporte à criação de voz personalizada a partir de apenas alguns segundos de áudio através do Microsoft Foundry. O preço estabelecido pela Microsoft é de US$ 22 por 1 milhão de caracteres.
MAI-Image-2: Criação de Imagens Aprimorada e Mais Veloz
Por sua vez, o MAI-Image-2 estreou como uma das três principais famílias de modelos no Arena.ai leaderboard e agora oferece tempos de geração pelo menos duas vezes mais rápidos no Foundry e no Copilot em comparação com seu predecessor. A Microsoft está implementando o modelo no Bing e no PowerPoint, com precificação de US$ 5 por 1 milhão de tokens para entrada de texto e US$ 33 por 1 milhão de tokens para saída de imagem. A WPP, uma das maiores holdings de publicidade do mundo, está entre os primeiros parceiros empresariais a desenvolver soluções com o MAI-Image-2 em larga escala.
A Reviravolta Contratual que Libertou a Microsoft na IA
Para entender a importância desses modelos, é fundamental compreender a mudança sísmica no contrato que os tornou possíveis. Até outubro de 2025, a Microsoft estava contratualmente proibida de buscar de forma independente a inteligência artificial geral (AGI). O acordo original com a OpenAI, assinado em 2019, concedia à Microsoft uma licença para os modelos da OpenAI em troca da construção da infraestrutura de nuvem necessária para a startup.
Contudo, quando a OpenAI buscou expandir sua pegada de computação além da Microsoft, firmando acordos com o SoftBank e outros, a Microsoft renegociou. Conforme Suleyman explicou em uma entrevista de dezembro de 2025 à Bloomberg (o ano parece ser um erro de digitação no original, talvez 2023 ou 2024), o acordo revisado significou que “até algumas semanas atrás, a Microsoft não tinha permissão — por contrato — para buscar inteligência artificial geral ou superinteligência de forma independente.” Os novos termos liberaram a Microsoft para construir seus próprios modelos de ponta, enquanto ela mantém os direitos de licença para tudo que a OpenAI desenvolver até 2032.
Suleyman descreveu a dinâmica à VentureBeat em termos diretos: “Em setembro do ano passado, renegociamos o contrato com a OpenAI, e isso nos permitiu buscar nossa própria superinteligência de forma independente. Desde então, temos trabalhado nisso intensamente.”
Impacto no Mercado e Perspectivas Futuras
O lançamento desses modelos tem implicações significativas. Para o mercado, intensifica a competição, o que pode levar a inovações mais rápidas e, potencialmente, a custos mais baixos para soluções de IA. Para a própria Microsoft, representa um passo crucial para solidificar sua posição como um player completo no cenário da IA, não apenas como um provedor de infraestrutura ou distribuidor de modelos de terceiros. A capacidade de produzir modelos competitivos internamente também pode reduzir sua dependência de parceiros, controlando melhor os custos de produtos e serviços.
Para desenvolvedores e empresas, a disponibilidade de modelos de alta qualidade e custo-benefício, como os MAI, pode impulsionar novas aplicações e funcionalidades em diversas indústrias, desde publicidade até comunicação interna. A busca por “autossuficiência em IA” da Microsoft sugere que veremos mais investimentos e lançamentos de modelos proprietários nos próximos meses e anos, consolidando a estratégia da empresa em se destacar como uma inovadora de ponta em Inteligência Artificial.
Com esses lançamentos, a Microsoft não apenas responde às pressões dos investidores, mas também redefine seu papel no ecossistema de IA, passando de um parceiro estratégico para um competidor direto em várias frentes de tecnologia de ponta.
Gostou da notícia?
Inscreva-se na nossa newsletter para receber as principais novidades sobre inteligência artificial diretamente no seu e-mail.