O llm-d, um novo projeto de código aberto acaba de ser lançado com o apoio de empresas como CoreWeave, Google Cloud, IBM Research e NVIDIA. A iniciativa tem o foco de acelerar a necessidade mais crucial para o futuro da IA generativa (gen AI): inferência em escala. Baseado em uma arquitetura nativa do Kubernetes, o programa utiliza inferência distribuída com vLLM e roteamento de rede inteligente e sensível à IA, permitindo a criação de nuvens de inferência robustas para modelos de linguagem de grande escala (LLM) que atendam aos mais exigentes objetivos de nível de serviço (SLOs) em produção.
Embora o treinamento continue sendo vital, o verdadeiro impacto da gen AI depende de inferência mais eficiente e escalável — o mecanismo que transforma modelos de IA em insights práticos e experiências para o usuário. De acordo com a Gartner, até 2028, à medida que o mercado amadurecer, mais de 80% dos aceleradores de carga de trabalho em data centers serão implantados especificamente para inferência, em vez de treinamento. Isso significa que o futuro da gen AI está na capacidade de execução. As crescentes demandas de recursos de modelos de raciocínio cada vez mais sofisticados e complexos limitam a viabilidade da inferência centralizada e ameaçam criar gargalos na inovação em IA, devido a custos proibitivos e latência paralisante
Respondendo à necessidade de inferência escalável
A Red Hat e seus parceiros da indústria estão enfrentando diretamente esse desafio com o llm-d, um projeto visionário que amplia o poder do vLLM para superar as limitações de um único servidor e liberar a produção em escala para inferência de IA. Usando o poder comprovado de orquestração do Kubernetes, o llm-d integra capacidades avançadas de inferência nas infraestruturas de TI corporativas existentes. Essa plataforma unificada capacita as equipes de TI a atender às diversas demandas de serviço de cargas de trabalho críticas para os negócios, enquanto implementa técnicas inovadoras para maximizar a eficiência e reduzir drasticamente o custo total de propriedade (TCO) associado a aceleradores de IA de alto desempenho.
O llm-d oferece um poderoso conjunto de inovações, com destaque para:
- vLLM, que rapidamente se tornou o servidor de inferência padrão em código aberto, oferecendo suporte de modelo desde o dia zero para modelos emergentes de fronteira e suporte para uma ampla lista de aceleradores, agora incluindo as Unidades de Processamento de Tensor (TPUs) do Google Cloud.
- Prefill e decodificação desagregada para separar contexto de entrada e geração de tokens de IA em operações distintas, que podem ser distribuídas entre múltiplos servidores.
- Descarregamento de Cache KV (key-value), baseado no LMCache, essa função transfere a carga de memória do cache KV da memória da GPU para um armazenamento padrão mais econômico e abundante, como memória da CPU ou armazenamento em rede.
- Clusters e controladores baseados em Kubernetes para um agendamento mais eficiente de recursos de computação e armazenamento, à medida que as demandas de carga de trabalho flutuam, assegurando o melhor desempenho e a menor latência.
- Roteamento com foco em IA para redes a fim de agendar solicitações de entrada para os servidores e aceleradores que provavelmente possuem caches recentes de cálculos anteriores à inferência.
- APIs de comunicação de alto desempenho para uma transferência de dados mais rápida e eficiente entre servidores, com suporte à NVIDIA Inference Xfer Library (NIXL).
llm-d: unânime entre líderes da indústria
Este novo projeto de código aberto já conta com o apoio de uma coalizão formidável de principais provedores de modelos de gen AI, pioneiros em aceleradores de IA e plataformas de nuvem líderes voltadas para IA. CoreWeave, Google Cloud, IBM Research e NVIDIA são os colaboradores fundadores, com AMD, Cisco, Hugging Face, Intel, Lambda e Mistral AI como parceiros, destacando a forte colaboração da indústria para arquitetar o futuro da execução de LLMs em escala. A comunidade llm-d também conta com o apoio de instituições acadêmicas como Sky Computing Lab da Universidade da Califórnia, criadores do vLLM, e o LMCache Lab da Universidade de Chicago, criadores do LMCache.
Fiel ao seu compromisso inabalável com a colaboração aberta, a Red Hat reconhece a importância crítica de comunidades vibrantes e acessíveis no cenário em rápida evolução da inferência de gen AI. A Red Hat vai ativamente apoiar o crescimento da comunidade llm-d, promovendo um ambiente inclusivo para novos membros e impulsionando sua evolução contínua.
A visão da Red Hat: qualquer modelo, qualquer acelerador, qualquer nuvem
O futuro da IA deve ser definido por oportunidades ilimitadas e não restrito por silos de infraestrutura. A Red Hat enxerga um horizonte no qual as organizações possam implantar qualquer modelo, em qualquer acelerador, em qualquer nuvem, entregando uma experiência de usuário excepcional e mais consistente, sem custos exorbitantes. Para desbloquear o verdadeiro potencial dos investimentos em gen AI, as empresas precisam de uma plataforma universal de inferência — um novo padrão para inovações em IA contínuas e de alto desempenho, tanto no presente quanto nos próximos anos.
Assim como a Red Hat foi pioneira na transformação do Linux em base fundamental da TI moderna, a empresa está agora preparada para arquitetar o futuro da inferência de IA. O vLLM tem o potencial de se tornar peça-chave para uma inferência padronizada em gen AI, e a Red Hat está comprometida em construir um ecossistema próspero não apenas em torno da comunidade vLLM, mas também do llm-d, voltado para inferência distribuída em larga escala. A visão é clara: independentemente do modelo de IA, do acelerador subjacente ou do ambiente de implantação, a Red Hat pretende tornar o vLLM o padrão aberto definitivo para inferência na nova nuvem híbrida.
Red Hat Summit
Participe das keynotes do Red Hat Summit para ouvir as últimas novidades de executivos, clientes e parceiros da Red Hat:
- Infraestrutura moderna alinhada à IA empresarial —Terça-feira, 20 de maio, 8h -10h EDT (YouTube)
- A nuvem híbrida evolui para impulsionar a inovação empresarial — Quarta-feira, 21 de maio, 8h-9h30 EDT (YouTube)