بدايةأخبارإطلاق جديدRed Hat lança a comunidade llm-d, impulsionando a inferência distribuída de Gen...

Red Hat lança a comunidade llm-d, impulsionando a inferência distribuída de Gen IA em escala

 O llm-d, um novo projeto de código aberto acaba de ser lançado com o apoio de empresas como CoreWeave, Google Cloud, IBM Research e NVIDIA. A iniciativa tem o foco de acelerar a necessidade mais crucial para o futuro da IA generativa (gen AI): inferência em escala.  Baseado em uma arquitetura nativa do Kubernetes, o programa utiliza inferência distribuída com vLLM e roteamento de rede inteligente e sensível à IA, permitindo a criação de nuvens de inferência robustas para modelos de linguagem de grande escala (LLM) que atendam aos mais exigentes objetivos de nível de serviço (SLOs) em produção.

Embora o treinamento continue sendo vital, o verdadeiro impacto da gen AI depende de inferência mais eficiente e escalável — o mecanismo que transforma modelos de IA em insights práticos e experiências para o usuário. De acordo com a Gartner, até 2028, à medida que o mercado amadurecer, mais de 80% dos aceleradores de carga de trabalho em data centers serão implantados especificamente para inferência, em vez de treinamento. Isso significa que o futuro da gen AI está na capacidade de execução. As crescentes demandas de recursos de modelos de raciocínio cada vez mais sofisticados e complexos limitam a viabilidade da inferência centralizada e ameaçam criar gargalos na inovação em IA, devido a custos proibitivos e latência paralisante

Respondendo à necessidade de inferência escalável 

A Red Hat e seus parceiros da indústria estão enfrentando diretamente esse desafio com o llm-d, um projeto visionário que amplia o poder do vLLM para superar as limitações de um único servidor e liberar a produção em escala para inferência de IA. Usando o poder comprovado de orquestração do Kubernetes, o llm-d integra capacidades avançadas de inferência nas infraestruturas de TI corporativas existentes. Essa plataforma unificada capacita as equipes de TI a atender às diversas demandas de serviço de cargas de trabalho críticas para os negócios, enquanto implementa técnicas inovadoras para maximizar a eficiência e reduzir drasticamente o custo total de propriedade (TCO) associado a aceleradores de IA de alto desempenho.

O llm-d oferece um poderoso conjunto de inovações, com destaque para:

  • vLLM, que rapidamente se tornou o servidor de inferência padrão em código aberto, oferecendo suporte de modelo desde o dia zero para modelos emergentes de fronteira e suporte para uma ampla lista de aceleradores, agora incluindo as Unidades de Processamento de Tensor (TPUs) do Google Cloud.
  • Prefill e decodificação desagregada para separar contexto de entrada e geração de tokens de IA em operações distintas, que podem ser distribuídas entre múltiplos servidores.
  • Descarregamento de Cache KV (key-value), baseado no LMCache, essa função  transfere a carga de memória do cache KV da memória da GPU para um armazenamento padrão mais econômico e abundante, como memória da CPU ou armazenamento em rede.
  • Clusters e controladores baseados em Kubernetes para um agendamento mais eficiente de recursos de computação e armazenamento, à medida que as demandas de carga de trabalho flutuam, assegurando o melhor desempenho e a menor latência.
  • Roteamento  com foco em  IA para redes a fim de agendar solicitações de entrada para os servidores e aceleradores que provavelmente possuem caches recentes de cálculos anteriores à inferência.
  • APIs de comunicação de alto desempenho para uma transferência de dados mais rápida e eficiente entre servidores, com suporte à NVIDIA Inference Xfer Library (NIXL).

llm-d: unânime entre líderes da indústria

Este novo projeto de código aberto já conta com o apoio de uma coalizão formidável de principais provedores de modelos de gen AI, pioneiros em aceleradores de IA e plataformas de nuvem líderes voltadas para IA. CoreWeave, Google Cloud, IBM Research e NVIDIA são os colaboradores fundadores, com AMD, Cisco, Hugging Face, Intel, Lambda e Mistral AI como parceiros, destacando a forte colaboração da indústria para arquitetar o futuro da execução de LLMs em escala. A comunidade llm-d também conta com o apoio de instituições acadêmicas como Sky Computing Lab da Universidade da Califórnia, criadores do vLLM, e o LMCache Lab da Universidade de Chicago, criadores do LMCache.

Fiel ao seu compromisso inabalável com a colaboração aberta, a Red Hat reconhece a importância crítica de comunidades vibrantes e acessíveis no cenário em rápida evolução da inferência de gen AI. A Red Hat vai ativamente apoiar o crescimento da comunidade llm-d, promovendo um ambiente inclusivo para novos membros e impulsionando sua evolução contínua.

A visão da Red Hat: qualquer modelo, qualquer acelerador, qualquer nuvem

O futuro da IA deve ser definido por oportunidades ilimitadas e não restrito por silos de infraestrutura. A Red Hat enxerga um horizonte no qual as organizações possam implantar qualquer modelo, em qualquer acelerador, em qualquer nuvem, entregando uma experiência de usuário excepcional e mais consistente, sem custos exorbitantes. Para desbloquear o verdadeiro potencial dos investimentos em gen AI, as empresas precisam de uma plataforma universal de inferência — um novo padrão para inovações em IA contínuas e de alto desempenho, tanto no presente quanto nos próximos anos.

Assim como a Red Hat foi pioneira na transformação do Linux em base fundamental da TI moderna, a empresa está agora preparada para arquitetar o futuro da inferência de IA. O vLLM tem o potencial de se tornar peça-chave para uma inferência padronizada em gen AI, e a Red Hat está comprometida em construir um ecossistema próspero não apenas em torno da comunidade vLLM, mas também do llm-d, voltado para inferência distribuída em larga escala. A visão é clara: independentemente do modelo de IA, do acelerador subjacente ou do ambiente de implantação, a Red Hat pretende tornar o vLLM o padrão aberto definitivo para inferência na nova nuvem híbrida.

Red Hat Summit

Participe das keynotes do Red Hat Summit para ouvir as últimas novidades de executivos, clientes e parceiros da Red Hat:

تحديث التجارة الإلكترونية
تحديث التجارة الإلكترونيةhttps://www.ecommerceupdate.org
E-Commerce Update هي شركة رائدة في السوق البرازيلي، متخصصة في إنتاج ونشر محتوى عالي الجودة حول قطاع التجارة الإلكترونية.
مواضيع ذات صلة

اترك ردًا

الرجاء إدخال تعليقك!
الرجاء إدخال اسمك هنا

حديث

الأكثر شيوعًا

[elfsight_cookie_consent id="1"]