Il llm-d, un nuovo progetto open source è stato appena lanciato con il supporto di aziende come CoreWeave, Google Cloud, IBM Research e NVIDIA. L'iniziativa si concentra sull'accelerare la necessità più cruciale per il futuro dell'IA generativa (gen AI): l'inferenza su larga scala.Basato su un'architettura nativa di Kubernetes, il programma utilizza inferenza distribuita con vLLM e routing di rete intelligente e sensibile all'IA, consentendo la creazione di cloud di inferenza robuste per modelli di linguaggio di grande scala (LLM) che soddisfano i più esigenti obiettivi di livello di servizio (SLO) in produzione.
Sebbene l'addestramento rimanga fondamentale, il vero impatto dell'IA generativa dipende da inferenza più efficiente e scalabile — il meccanismo che trasforma i modelli di IA in approfondimenti pratici ed esperienze per l'utente. Secondo Gartner, entro il 2028, man mano che il mercato matura, oltre l'80% degli acceleratori di carico di lavoro nei data center saranno implementati specificamente per inferenza, anziché per addestramento. Questo significa che il futuro dell'IA generativa risiede nella capacità di esecuzione. Le crescenti richieste di risorse dei modelli di ragionamento sempre più sofisticati e complessi limitano la fattibilità dell'inferenza centralizzata e minacciano di creare colli di bottiglia nell'innovazione dell'IA, a causa di costi proibitivi e latenza paralizzante
Rispondendo alla necessità di inferenza scalabile
Red Hat e i suoi partner del settore stanno affrontando direttamente questa sfida con l' llm-d, un progetto visionario che amplia la potenza del vLLM per superare le limitazioni di un singolo server e liberare la produzione su larga scala per l'inferenza dell'IA. Utilizzando il potere comprovato dell'orchestrazione di Kubernetes, il llm-d integra capacità avanzate di inferenza nelle infrastrutture IT aziendali esistenti. Questa piattaforma unificata abilita i team IT a soddisfare le diverse richieste di servizio di carichi di lavoro critici per il business, mentre implementa tecniche innovative per massimizzare l'efficienza e ridurre drasticamente il costo totale di proprietà (TCO) associato agli acceleratori di IA ad alte prestazioni.
L'LLM-D offre un potente insieme di innovazioni, con particolare attenzione a:
- vLLM, che è rapidamente diventato il server di inferenza open source predefinitooffrendo supporto di modello fin dal giorno uno per modelli emergenti di frontiera e supporto per una vasta lista di acceleratori, ora includendo le Unità di Elaborazione Tensor (TPU) di Google Cloud.
- Precompilazione e decodifica disaggregataper separare il contesto di input e la generazione di token dell'IA in operazioni distinte, che possono essere distribuite tra più server.
- Scaricamento della cache KV (chiave-valore), basato su LMCache, questa funzione trasferisce il carico di memoria della cache KV dalla memoria GPU a un'archiviazione standard più economica e abbondante, come la memoria della CPU o l'archiviazione di rete.
- Cluster e controller basati su Kubernetesper un'assegnazione più efficiente delle risorse di calcolo e archiviazione, man mano che le richieste di carico di lavoro fluttuano, garantendo le migliori prestazioni e la minima latenza.
- Routing con focus su IA per retial fine di pianificare le richieste di ingresso per i server e gli acceleratori che probabilmente possiedono cache recenti di calcoli precedenti all'inferenza
- API di comunicazione ad alte prestazioniper una trasmissione di dati più rapida ed efficiente tra server, con supporto alla NVIDIA Inference Xfer Library (NIXL).
llm-d: unanime tra i leader del settore
Questo nuovo progetto open source ha già il supporto di una coalizione formidabile di principali fornitori di modelli di intelligenza artificiale generativa, pionieri negli acceleratori di IA e piattaforme cloud leader nel settore dell'IA. CoreWeave, Google Cloud, IBM Research e NVIDIA sono i collaboratori fondatori, con AMD, Cisco, Hugging Face, Intel, Lambda e Mistral AI come partner, evidenziando la forte collaborazione dell'industria per progettare il futuro dell'esecuzione di LLM su larga scala. La comunità llm-d conta anche con il supporto di istituzioni accademiche come Sky Computing Lab dell'Università della California, creatori di vLLM, e il LMCache Lab dell'Università di Chicago, creatori diLMCache.
Fedele al suo impegno incrollabile nella collaborazione aperta, Red Hat riconosce l'importanza critica di comunità vibranti e accessibili nel panorama in rapido cambiamento dell'inferenza di gen AI. Red Hat supporterà attivamente la crescita della comunità llm-d, promuovendo un ambiente inclusivo per i nuovi membri e stimolando la loro evoluzione continua.
La visione di Red Hat: qualsiasi modello, qualsiasi acceleratore, qualsiasi cloud
Il futuro dell'IA deve essere definito da opportunità illimitate e non limitato da silos di infrastrutture. Red Hat vede un orizzonte in cui le organizzazioni possano implementare qualsiasi modello, su qualsiasi acceleratore, in qualsiasi cloud, offrendo un'esperienza utente eccezionale e più coerente, senza costi esorbitanti. Per sbloccare il vero potenziale degli investimenti in gen AI, le aziende hanno bisogno di una piattaforma universale di inferenza — un nuovo standard per innovazioni in IA continue e ad alte prestazioni, sia nel presente che negli anni a venire.
Proprio come Red Hat è stata pioniera nella trasformazione di Linux in una base fondamentale dell'IT moderna, l'azienda è ora pronta a progettare il futuro dell'inferenza dell'IA. Il vLLM ha il potenziale di diventare un elemento chiave per un'inferenza standardizzata nell'IA generativa, e Red Hat è impegnata a costruire un ecosistema prospero non solo attorno alla comunità vLLM, ma anche al llm-d, dedicato all'inferenza distribuita su larga scala. La visione è chiara: indipendentemente dal modello di IA, dall'acceleratore sottostante o dall'ambiente di distribuzione, Red Hat intende rendere vLLM lo standard aperto definitivo per l'inferenza nel nuovo cloud ibrido.
Red Hat Summit
Partecipa alle keynote del Red Hat Summit per ascoltare le ultime novità di dirigenti, clienti e partner di Red Hat:
- Infrastruttura moderna allineata all'IA aziendale—Martedì 20 maggio, 8h-10h EDTYouTube)
- Il cloud ibrido si evolve per guidare l'innovazione aziendale— Mercoledì 21 maggio, 8:00-9:30 EDTYouTube)