llm-d, ett nytt open source-projekt som precis har lanserats med stöd av företag som CoreWeave, Google Cloud, IBM Research och NVIDIA. Initiativet fokuserar på att påskynda den mest avgörande behoven för AI-generativ framtid (gen AI): storskalig inferens.Baserat på en Kubernetes-native arkitektur använder programmet distribuerad inferens med vLLM och intelligent, AI-känslig nätverksrouting, vilket möjliggör skapandet av robusta inferensmoln för stora språkmodeller (LLM) som uppfyller de mest krävande servicenivåmålen (SLOs) i produktion.
Även om träningen fortfarande är avgörande, beror den verkliga påverkan av generativ AI på mer effektiv och skalbar inferens — mekanismen som omvandlar AI-modeller till praktiska insikter och användarupplevelser. Enligt Gartner kommer mer än 80 % av arbetsbelastningsacceleratorerna i datacenter att vara specifikt implementerade för inferens snarare än träning fram till 2028, i takt med att marknaden mognar. Det betyder att framtiden för generativ AI ligger i exekveringsförmågan. De ökande efterfrågning på resurser för allt mer sofistikerade och komplexa resonemodeller begränsar möjligheten till centraliserad inferens och hotar att skapa flaskhalsar för AI-innovation på grund av prohibitiva kostnader och förlamande latens
Som svar på behovet av skalbar inferens
Red Hat och dess industripartners möter direkt denna utmaning med llm-d, ett visionärt projekt som utökar kraften hos vLLM för att övervinna begränsningarna hos en enda server och möjliggöra storskalig produktion för AI-inferens. Genom att använda den beprövade orkestreringskraften hos Kubernetes integrerar llm-d avancerade inferensfunktioner i befintliga företags IT-infrastrukturer. Denna enhetliga plattform ger IT-team möjligheten att hantera de olika servicebehoven för kritiska affärsbelastningar samtidigt som den implementerar innovativa tekniker för att maximera effektiviteten och drastiskt minska den totala ägandekostnaden (TCO) för högpresterande AI-acceleratorer.
llm-d erbjuder en kraftfull uppsättning innovationer, med särskild tonvikt på:
- vLLM, som snabbt blev den öppna koden standardinferensservererbjuder modellstöd från dag ett för framväxande gränsmodeller och stöd för en bred lista av acceleratörer, inklusive Googles Tensor Processing Units (TPUs).
- Förhandsifyllning och avkodning i detaljför att separera inmatningskontext och AI-token-generering i skilda operationer, som kan fördelas mellan flera servrar.
- Nedladdning av KV (nyckel-värde) cache, baserat på LMCache, överför denna funktion minnesbelastningen från KV-cachen i GPU-minnet till en mer kostnadseffektiv och riklig lagring, som CPU-minne eller nätverkslagring.
- Kluster och kontrollanter baserade på Kubernetesför en mer effektiv schemaläggning av beräknings- och lagringsresurser, i takt med att arbetsbelastningens krav svänger, för att säkerställa bästa prestanda och lägsta latens.
- Routning med fokus på AI för nätverkför att schemalägga inmatningsförfrågningar för servrar och acceleratörer som sannolikt har nyligen cachelagrade beräkningar från tidigare inferenser.
- Högpresterande kommunikations-API:erför en snabbare och mer effektiv dataöverföring mellan servrar, med stöd för NVIDIA Inference Xfer Library (NIXL).
llm-d: enhällig bland industriledare
Detta nya open source-projekt har redan stöd av en formidable koalition av ledande leverantörer av generativa AI-modeller, pionjärer inom AI-acceleratorer och ledande molnplattformar inriktade på AI. CoreWeave, Google Cloud, IBM Research och NVIDIA är grundande samarbetspartner, med AMD, Cisco, Hugging Face, Intel, Lambda och Mistral AI som partners, vilket framhäver det starka industrisamarbetet för att forma framtiden för storskalig körning av LLMs. Samfundet llm-d har också stöd från akademiska institutioner som Sky Computing Lab vid University of California, skapare av vLLM, och LMCache Lab vid University of Chicago, skapare avLMCache.
Trofast mot sitt orubrottliga engagemang för öppen samverkan erkänner Red Hat den kritiska betydelsen av livliga och tillgängliga gemenskaper i det snabbt föränderliga landskapet för gen AI-inferens. Red Hat kommer aktivt att stödja tillväxten av llm-d-communityn genom att främja en inkluderande miljö för nya medlemmar och driva deras kontinuerliga utveckling.
Red Hats vision: vilken modell, vilken accelerator, vilken molnplattform som helst
Framtiden för AI bör definieras av obegränsade möjligheter och inte begränsas av infrastruktursilos. Red Hat ser ser att en horisont där organisationer kan implementera vilken modell som helst, i vilken accelerator som helst, i vilken moln som helst, och leverera en enastående och mer konsekvent användarupplevelse utan orimliga kostnader. För att låsa upp den verkliga potentialen hos investeringar i generativ AI behöver företagen en universell inferensplattform — en ny standard för kontinuerlig och högpresterande AI-innovation, både nu och under de kommande åren.
Precis som Red Hat var pionjär inom att göra Linux till en grundläggande del av modern IT, är företaget nu redo att utforma framtiden för AI-inferens. O vLLM har potential att bli en nyckelkomponent för standardiserad inferens inom generativ AI, och Red Hat är engagerade i att bygga ett blomstrande ekosystem inte bara kring vLLM-communityn utan också kring llm-d, inriktat på distribuerad inferens i stor skala. Visionen är tydlig: oavsett AI-modell, underliggande accelerator eller implementeringsmiljö strävar Red Hat efter att göra vLLM till den definitiva öppna standarden för inferens i den nya hybridmolnet.
Red Hat-uppsättningen
Delta i Red Hat Summit:s huvudtal för att höra de senaste nyheterna från Red Hat:s ledare, kunder och partners:
- Modern infrastruktur i linje med företags-IA—Tisdag, 20 maj, 8-10 EDTYouTube)
- Den hybrida molnplattformen utvecklas för att driva företagsinnovation— Onsdag den 21 maj, 8:00-9:30 EDTYouTube)