À medida que os Large Language Models (LLMs) se tornam ferramentas indispensáveis em inúmeras aplicações, a capacidade de processar longos volumes de texto – como 200.000 tokens – apresenta um desafio significativo. Essa tarefa é não apenas custosa, mas também extremamente lenta. No entanto, uma colaboração entre pesquisadores da Universidade de Tsinghua e da Z.ai resultou no desenvolvimento do IndexCache, uma técnica inovadora que promete revolucionar a eficiência nesse campo.
O IndexCache é capaz de eliminar até 75% da computação redundante em modelos de atenção esparsa, entregando uma inferência até 1.82x mais rápida para o primeiro token e um throughput de geração 1.48x maior em contextos longos. Esta inovação, já comprovada em testes preliminares com o modelo GLM-5 de 744 bilhões de parâmetros, é aplicável a modelos que utilizam a arquitetura DeepSeek Sparse Attention (DSA), incluindo as populares famílias DeepSeek e GLM. Seu potencial é enorme para aprimorar a experiência do usuário e a escalabilidade de aplicações de Inteligência Artificial que exigem a compreensão de grandes contextos.
O Desafio do Contexto Longo em LLMs
A base dos Large Language Models reside no mecanismo de self-attention, um processo onde o modelo calcula a relação entre cada token em seu contexto e todos os tokens anteriores para prever a próxima palavra. O grande problema é que a complexidade computacional da self-attention escala quadraticamente com o comprimento da sequência. Para aplicações que exigem janelas de contexto estendidas – como o processamento de documentos extensos, fluxos de trabalho multi-etapas de agentes de IA ou raciocínio complexo em cadeia de pensamento – essa escalabilidade quadrática resulta em velocidades de inferência lentas e custos significativos de computação e memória.
A atenção esparsa (sparse attention) surgiu como uma solução elegante para esse problema de escalabilidade. Em vez de calcular a relação entre cada token e todos os anteriores, ela otimiza o processo fazendo com que cada “consulta” (query) selecione e preste atenção apenas ao subconjunto mais relevante de tokens. A DeepSeek Sparse Attention (DSA), introduzida primeiramente no DeepSeek-V3.2, é uma implementação altamente eficiente desse conceito. Para determinar quais tokens são mais importantes, a DSA incorpora um “módulo indexador relâmpago” (lightning indexer module) leve em cada camada do modelo, que pontua todos os tokens anteriores e seleciona um pequeno lote para o mecanismo de atenção principal. Isso transforma a pesada computação da atenção central de quadrática para linear, acelerando drasticamente o modelo sem comprometer a qualidade da saída.
No entanto, os pesquisadores de Tsinghua e Z.ai identificaram uma falha persistente: o próprio indexador DSA ainda opera com complexidade quadrática em cada camada. Embora o indexador seja computacionalmente mais barato que o processo de atenção principal, à medida que os comprimentos de contexto aumentam, o tempo que o modelo gasta executando esses indexadores cresce exponencialmente. Isso retarda severamente o modelo, especialmente durante a fase inicial de “preenchimento” (prefill), onde o prompt é processado pela primeira vez.
IndexCache: Otimizando a Atenção Esparsa com Cache Inteligente
A Descoberta da Redundância
Para resolver o gargalo do indexador, a equipe de pesquisa descobriu uma característica crucial na forma como os modelos DSA processam dados: o subconjunto de tokens importantes selecionados por um indexador permanece notavelmente estável à medida que os dados se movem através de camadas consecutivas do transformador. Testes empíricos em modelos DSA revelaram que camadas adjacentes compartilham entre 70% e 100% de seus tokens selecionados.
Como o IndexCache Funciona
Aproveitando essa redundância entre camadas, os pesquisadores desenvolveram o IndexCache. A técnica divide as camadas do modelo em duas categorias: um pequeno número de camadas ‘completas’ (F – Full) que mantêm seus indexadores, ativamente pontuando tokens e escolhendo os mais importantes para cache. O restante das camadas torna-se ‘compartilhado’ (S – Shared), não realizando indexação e reutilizando os índices cacheados da camada F mais próxima. Durante a inferência, o modelo simplesmente verifica o tipo de camada: se for uma camada F, calcula e armazena novos índices; se for uma camada S, pula a matemática e copia os dados cacheados.
Diferente de muitas técnicas de otimização que buscam comprimir o KV cache (onde os valores de atenção computados são armazenados) para reduzir o consumo de memória, o IndexCache foca na aceleração computacional. “O IndexCache não é uma compressão ou técnica de compartilhamento de KV cache tradicional”, explicou Yushi Bai, coautor do artigo, em entrevista à VentureBeat. “Ele elimina essa redundância reutilizando índices entre as camadas, reduzindo assim a computação em vez de apenas a pegada de memória. É complementar às abordagens existentes e pode ser combinado com elas.”
Estratégias de Implementação e Compatibilidade
Os pesquisadores desenvolveram duas abordagens de implementação para o IndexCache. Para desenvolvedores que trabalham com modelos DSA prontos para uso, onde o retreino é inviável ou muito caro, foi criado um método sem treinamento que utiliza um algoritmo de “seleção de camada gulosa” (greedy layer selection). Ao executar um pequeno conjunto de dados de calibração através do modelo, este algoritmo determina automaticamente o posicionamento ideal das camadas F e S sem qualquer atualização de peso. Evidências empíricas mostram que o algoritmo guloso pode remover com segurança 75% dos indexadores, mantendo o desempenho do modelo original. A técnica também pode ser integrada em equipes que estão pré-treinando ou ajustando (fine-tuning) seus próprios modelos de base. É importante notar que o IndexCache se aplica apenas a modelos que usam a arquitetura DSA, como os modelos DeepSeek mais recentes e a última família de modelos GLM.
Impactos no Mercado e Futuro da Inteligência Artificial
A chegada do IndexCache tem implicações significativas para empresas e desenvolvedores. Para empresas, significa a capacidade de oferecer experiências de usuário mais rápidas e fluidas em modelos de IA de contexto longo em escala de produção, tornando aplicações antes lentas e caras, muito mais viáveis. Os desenvolvedores ganham uma ferramenta poderosa para otimizar modelos existentes sem a necessidade de um retreinamento dispendioso, ou para integrar essa eficiência em novos modelos desde o início.
Em um cenário mais amplo, esta otimização impulsiona o avanço das capacidades dos LLMs para tarefas que exigem um entendimento profundo e abrangente de grandes quantidades de dados. Isso pode acelerar a inovação em áreas como a análise jurídica, pesquisa médica, atendimento ao cliente complexo e automação de processos, onde a capacidade de processar longos contextos de forma eficiente é um diferencial competitivo.
Conclusão
O IndexCache representa um avanço significativo na otimização de modelos de IA de contexto longo, ao resolver o gargalo do indexador na arquitetura DeepSeek Sparse Attention. Ao capitalizar a redundância entre camadas, esta técnica não só acelera a inferência em quase o dobro, mas também reduz custos computacionais. O potencial é imenso para tornar a Inteligência Artificial mais eficiente, acessível e capaz de lidar com tarefas cada vez mais complexas, impulsionando a inovação em diversas frentes da tecnologia e aproximando o futuro dos LLMs com contexto verdadeiramente ilimitado.
Gostou da notícia? Inscreva-se na nossa newsletter para receber as principais novidades sobre inteligência artificial diretamente no seu e-mail.