llm-d, uusi avoimen lähdekoodin projekti, on juuri julkaistu yritysten kuten CoreWeave, Google Cloud, IBM Research ja NVIDIA tuella. Iniciativa keskittyy nopeuttamaan tulevaisuuden generatiivisen tekoälyn (gen AI) tärkeintä tarvetta: skaalautuva päättely.Perustuen Kubernetesin natiiviseen arkkitehtuuriin, ohjelma käyttää hajautettua inferenssiä vLLM:n ja älykkään ja tekoälyherkän verkkoreitityksen avulla, mahdollistaen kestävien inferenssikuvien luomisen suurikokoisille kielimallille (LLM), jotka täyttävät vaativimmat palvelutasovaatimukset (SLO:t) tuotannossa.
Vaikka koulutus jatkuu edelleen elintärkeänä, todellinen tekoälyn vaikutus riippuu tehokkaammasta ja skaalautuvammasta päättelystä — mekanismista, joka muuntaa tekoälymallit käytännön oivalluksiksi ja käyttäjäkokemuksiksi. Gartnerin mukaan vuoteen 2028 mennessä, kun markkinat kypsyvät, yli 80 % datakeskusten työkuormien kiihdyttimistä otetaan käyttöön erityisesti inferenssiin eikä koulutukseen. Tämä tarkoittaa, että tulevaisuuden generatiivisessa tekoälyssä on suorituskyvyn kyky. Yhä kasvavat vaatimukset yhä kehittyneempien ja monimutkaisempien päättelymallien resursseista rajoittavat keskitetyn päättelyn toteutettavuutta ja uhkaavat luoda pullonkauloja tekoälyn innovaatiossa, koska kustannukset ovat kiellettyjä ja viive lamaannuttava
Vastaamalla skaalautuvan päättelyn tarpeeseen
Red Hat ja teollisuuskumppaninsa kohtaavat suoraan tätä haastetta llm-d:n avulla, visionäärinen projekti, joka laajentaa vLLM:n voimaa ylittämään yhden palvelimen rajoitukset ja vapauttamaan tuotannon laajamittaisessa tekoälyn inferenssissä. Käyttämällä Kubernetesin todistettua orkestrointitehoa, llm-d integroi edistyneitä päättelyominaisuuksia olemassa oleviin yritystietotekniikan infrastruktuureihin. Tämä yhtenäinen alusta valtuuttaa IT-tiimit vastaamaan kriittisten liiketoimintakuormien moninaisiin palvelutarpeisiin samalla kun ne ottavat käyttöön innovatiivisia tekniikoita tehokkuuden maksimoimiseksi ja korkean suorituskyvyn tekoälykiihdyttimien kokonaiskustannusten (TCO) merkittäväksi vähentämiseksi.
LLM-d tarjoaa vaikuttavan joukon innovaatioita, erityisesti:
- vLLM, joka nopeasti nousi avoimen lähdekoodin inferenssipalvelimeksi oletukseksitarjoamalla mallituen nollasta alkaen kehittyville rajamalleille ja tukea laajalle valikoimalle kiihdyttimiä, mukaan lukien Google Cloudin Tensor Processing Units (TPU:t).
- Esitäyttö ja hajautettu dekoodauserotella syötteen kontekstin ja tekoälyn tokenien generoinnin erillisiksi toiminnoiksi, jotka voidaan jakaa useiden palvelimien välillä.
- KV-avain-arvon välimuistin latausPerustuen LMCacheen, tämä funktio siirtää KV-välimuistin muistitiedon GPU-muistista talteen, joka on taloudellisempaa ja runsaampaa, kuten CPU-muisti tai verkkovarasto.
- Kubernetes-pohjaiset klusterit ja ohjaimettehokkaamman laskenta- ja tallennusresurssien aikataulutuksen varmistamiseksi, kun työkuormat vaihtelevat, taaten parhaan suorituskyvyn ja pienimmän latenssin.
- Reititys tekoälypainotteisesti verkoilletarkoituksena ajoittaa sisäänkirjautopyynnöt palvelimille ja kiihdyttimille, joilla todennäköisesti on viimeaikaisia välimuisteja aiempien ennusteiden laskuista.
- Korkean suorituskyvyn viestintä-API:tnopeampiirtäen nopeampaa ja tehokkaampaa tietojen siirtoa palvelimien välillä, NVIDIA Inference Xfer Library (NIXL) -tuen kanssa.
llm-d: yksimielinen teollisuuden johtajien kesken
Tämä uusi avoimen lähdekoodin projekti saa jo tukea vaikuttavalta koalitiolta, johon kuuluu johtavia gen AI -mallien tarjoajia, tekoälyn kiihdyttimien ja johtavien pilvipalvelualustojen pioneereja. CoreWeave, Google Cloud, IBM Research ja NVIDIA ovat perustajayhteistyökumppaneita, ja heidän kumppaneinaan ovat AMD, Cisco, Hugging Face, Intel, Lambda ja Mistral AI, mikä korostaa teollisuuden vahvaa yhteistyötä suurikokoisten LLM:ien suorittamisen tulevaisuuden suunnittelussa. llm-d-yhteisö saa myös tukea akateemisilta instituutioilta kuten Kalifornian yliopiston Sky Computing Lab, joka on vLLM:n luoja, ja Chicagon yliopiston LMCache Lab, joka on niiden luojaLMCache.
Vankka sitoutumisensa avoimeen yhteistyöhön Red Hat tunnustaa elintärkeän merkityksen elinvoimaisille ja saavutettaville yhteisöille nopeasti kehittyvässä gen AI -inference-ympäristössä. Red Hat tukee aktiivisesti llm-d-yhteisön kasvua edistäen osallistavaa ympäristöä uusille jäsenille ja edistäen jatkuvaa kehitystä.
Red Hatin näkemys: mikä tahansa malli, mikä tahansa kiihdytin, mikä tahansa pilvi
Tulevaisuus tekoälyssä tulee määrittyä rajattomien mahdollisuuksien perusteella eikä infrastruktuurin erillisten osien rajoittamana. Red Hat näkee horisontin, jossa organisaatiot voivat ottaa käyttöön minkä tahansa mallin, missä tahansa nopeuttimessa, missä tahansa pilvessä, tarjoten poikkeuksellisen ja johdonmukaisemman käyttäjäkokemuksen ilman kohtuuttomia kustannuksia. Jotta voidaan vapauttaa todellinen potentiaali gen AI -investoinneissa, yritysten tarvitsee yhtenäinen inferenssialusta — uusi standardi jatkuville ja korkeasuorituskykyisille tekoälyinnovaatioille sekä nykyhetkessä että tulevina vuosina.
Samoin kuin Red Hat oli edelläkävijä Linuxin muuttamisessa nykyaikaisen IT:n perustaksi, yritys on nyt valmis suunnittelemaan tekoälyn päättelyn tulevaisuutta. vLLM:llä on potentiaali tulla avaintekijäksi standardoidussa päättelyssä generatiivisessa tekoälyssä, ja Red Hat on sitoutunut rakentamaan kukoistavaa ekosysteemiä ei vain vLLM-yhteisön ympärille, vaan myös llm-d:n, joka keskittyy laajamittaiseen hajautettuun päättelyyn. Näkemys on selkeä: riippumatta tekoälymallista, taustalla olevasta kiihdyttimestä tai käyttöönottoympäristöstä, Red Hat aikoo tehdä vLLM:stä avoimen standardin lopullisen ennustamisen uudessa hybridipilvessä.
Red Hat huippukokous
Osallistu Red Hat Summitin avauspuheisiin kuullaksesi viimeisimmät uutiset Red Hatilta johtajilta, asiakkailta ja kumppaneilta:
- Nykyinen infrastruktuuri, joka on linjassa yrityskohtaisen tekoälyn kanssaTiistai, 20. toukokuuta, klo 8–10 EDTYouTube)
- Hybridipilvi kehittyy edistääkseen yritysinnovaatiotaKeskiviikko, 21. toukokuuta, klo 8–9.30 EDTYouTube)