O llm-d, et nytt åpen kildekodeprosjekt, har nettopp blitt lansert med støtte fra selskaper som CoreWeave, Google Cloud, IBM Research og NVIDIA. Initiativet har som mål å akselerere den mest kritiske nødvendigheten for fremtiden til generativ AI (gen AI): skalerbar inferens.Basert på en Kubernetes-innfødt arkitektur bruker programmet distribuert inferens med vLLM og intelligent, AI-sensitiv nettverksruting, noe som gjør det mulig å opprette robuste inferensskyer for store språkmodeller (LLM) som oppfyller de mest krevende tjenestenivåmål (SLOs) i produksjon.
Selv om trening fortsatt er viktig, avhenger den virkelige innvirkningen av generativ AI av mer effektiv og skalerbar inferens – mekanismen som omdanner AI-modeller til praktiske innsikter og brukeropplevelser. I følge Gartner vil mer enn 80 % av arbeidsbelastningsakseleratorene i datasentre bli implementert spesifikt for inferens, i stedet for trening, innen 2028, etter hvert som markedet modnes. Det betyr at fremtiden for generativ AI ligger i evnen til å utføre. De økende kravene til ressurser fra stadig mer sofistikerte og komplekse tankemodeller begrenser gjennomførbarheten av sentralisert inferens og truer med å skape flaskehalser i AI-innovasjon på grunn av prohibitive kostnader og lammet latens
Svarende til behovet for skalerbar inferens
Red Hat og sine bransjepartnere står overfor denne utfordringen med llm-d, et visjonært prosjekt som utvider kraften til vLLM for å overvinne begrensningene til en enkelt server og frigjøre produksjon i stor skala for AI-inferens. Ved å bruke den dokumenterte orkestreringskraften til Kubernetes, integrerer llm-d avanserte inferensmuligheter i eksisterende bedrifts-IT-infrastrukturer. Denne samlede plattformen gjør IT-team i stand til å håndtere ulike tjenestebehov for kritiske forretningsbelastninger, samtidig som den implementerer innovative teknikker for å maksimere effektiviteten og drastisk redusere den totale eierkostnaden (TCO) knyttet til høyytelses AI-acceleratorer.
O llm-d tilbyr et kraftig sett med innovasjoner, med særlig vekt på:
- vLLM, som raskt ble den åpne kildekode standard inferensserverentilbyr modellstøtte fra dag én for fremvoksende grensemodeller og støtte for en bred liste av akseleratorer, inkludert Googles Tensor Processing Units (TPUs).
- Prefill e decodificação desagregada para separar contexto de entrada e geração de tokens de IA em operações distintas, que podem ser distribuídas entre múltiplos servidores.
- Descarregamento de Cache KV (key-value), baseado no LMCache, essa função transfere a carga de memória do cache KV da memória da GPU para um armazenamento padrão mais econômico e abundante, como memória da CPU ou armazenamento em rede.
- Clusters e controladores baseados em Kubernetes para um agendamento mais eficiente de recursos de computação e armazenamento, à medida que as demandas de carga de trabalho flutuam, assegurando o melhor desempenho e a menor latência.
- Roteamento com foco em IA para redes a fim de agendar solicitações de entrada para os servidores e aceleradores que provavelmente possuem caches recentes de cálculos anteriores à inferência.
- APIs de comunicação de alto desempenho para uma transferência de dados mais rápida e eficiente entre servidores, com suporte à NVIDIA Inference Xfer Library (NIXL).
llm-d: unânime entre líderes da indústria
Este novo projeto de código aberto já conta com o apoio de uma coalizão formidável de principais provedores de modelos de gen AI, pioneiros em aceleradores de IA e plataformas de nuvem líderes voltadas para IA. CoreWeave, Google Cloud, IBM Research e NVIDIA são os colaboradores fundadores, com AMD, Cisco, Hugging Face, Intel, Lambda e Mistral AI como parceiros, destacando a forte colaboração da indústria para arquitetar o futuro da execução de LLMs em escala. A comunidade llm-d também conta com o apoio de instituições acadêmicas como Sky Computing Lab da Universidade da Califórnia, criadores do vLLM, e o LMCache Lab da Universidade de Chicago, criadores do LMCache.
Fiel ao seu compromisso inabalável com a colaboração aberta, a Red Hat reconhece a importância crítica de comunidades vibrantes e acessíveis no cenário em rápida evolução da inferência de gen AI. A Red Hat vai ativamente apoiar o crescimento da comunidade llm-d, promovendo um ambiente inclusivo para novos membros e impulsionando sua evolução contínua.
A visão da Red Hat: qualquer modelo, qualquer acelerador, qualquer nuvem
Fremtiden for AI bør defineres av ubegrensede muligheter og ikke begrenses av infrastruktursiloer. Red Hat ser ser en ei horisont der organisasjoner kan implementere hvilken som helst modell, i hvilken som helst akselerator, i hvilken som helst sky, og levere en enestående og mer konsistent brukeropplevelse uten høye kostnader. For å låse opp det sanne potensialet til investeringer i generativ AI, trenger selskaper en universell inferensplattform – en ny standard for kontinuerlige og høytytende AI-innovasjoner, både nå og i årene som kommer.
Assim como a Red Hat foi pioneira na transformação do Linux em base fundamental da TI moderna, a empresa está agora preparada para arquitetar o futuro da inferência de IA. O vLLM tem o potencial de se tornar peça-chave para uma inferência padronizada em gen AI, e a Red Hat está comprometida em construir um ecossistema próspero não apenas em torno da comunidade vLLM, mas também do llm-d, voltado para inferência distribuída em larga escala. A visão é clara: independentemente do modelo de IA, do acelerador subjacente ou do ambiente de implantação, a Red Hat pretende tornar o vLLM o padrão aberto definitivo para inferência na nova nuvem híbrida.
Red Hat-toppmøtet
Deltak i keynote-ene på Red Hat Summit for å høre de siste nyhetene fra ledere, kunder og partnere av Red Hat:
- Moderne infrastruktur i samsvar med bedrifts-IA- Tirsdag 20. mai, kl. 8-10 EDTYouTube)
- Den hybrid sky utvikler seg for å drive forretningsinnovasjon— Onsdag, 21. mai, 8.00-9.30 EDTYouTube)