O llm-d, un nouveau projet open source vient d'être lancé avec le soutien d'entreprises telles que CoreWeave, Google Cloud, IBM Research et NVIDIA. L'initiative vise à accélérer la nécessité la plus cruciale pour l'avenir de l'IA générative (IA géné): l'inférence à grande échelle.Basé sur une architecture native de Kubernetes, le programme utilise une inférence distribuée avec vLLM et un routage réseau intelligent et sensible à l'IA, permettant la création de clouds d'inférence robustes pour des modèles de langage de grande envergure (LLM) répondant aux objectifs de niveau de service (SLO) les plus exigeants en production.
Bien que la formation reste essentielle, le véritable impact de l'IA générative dépend d'une inférence plus efficace et évolutive — le mécanisme qui transforme les modèles d'IA en insights pratiques et en expériences pour l'utilisateur. Selon Gartner, d'ici 2028, à mesure que le marché mûrira, plus de 80 % des accélérateurs de charge de travail dans les centres de données seront déployés spécifiquement pour l'inférence, plutôt que pour la formation. Cela signifie que l'avenir de l'IA générative réside dans la capacité d'exécution. La demande croissante de ressources pour des modèles de raisonnement de plus en plus sophistiqués et complexes limite la faisabilité de l'inférence centralisée et menace de créer des goulets d'étranglement dans l'innovation en IA, en raison de coûts prohibitifs et de latences paralysantes
Répondre à la nécessité d'une inférence évolutive
Red Hat et ses partenaires de l'industrie relèvent directement ce défi avec le llm-d, un projet visionnaire qui étend la puissance du vLLM pour dépasser les limitations d'un seul serveur et libérer la production à grande échelle pour l'inférence d'IA. En utilisant le pouvoir éprouvé de l'orchestration Kubernetes, le llm-d intègre des capacités avancées d'inférence dans les infrastructures informatiques d'entreprise existantes. Cette plateforme unifiée permet aux équipes IT de répondre aux diverses demandes de service des charges de travail critiques pour l'entreprise, tout en mettant en œuvre des techniques innovantes pour maximiser l'efficacité et réduire drastiquement le coût total de possession (TCO) associé aux accélérateurs d'IA haute performance.
O llm-d offre un ensemble puissant d'innovations, notamment :
- vLLM, qui est rapidement devenu le serveur d'inférence open source par défaut,offrant un support de modèle depuis le jour zéro pour les modèles émergents de frontière et un support pour une large liste d'accélérateurs, incluant désormais les unités de traitement tensoriel (TPU) de Google Cloud.
- Pré-remplissage et décodage décomposéspour séparer le contexte d'entrée et la génération de tokens d'IA en opérations distinctes, qui peuvent être réparties entre plusieurs serveurs.
- Téléchargement du cache KV (clé-valeur), basé sur LMCache, cette fonction transfère la charge mémoire du cache KV de la mémoire GPU vers un stockage standard plus économique et abondant, comme la mémoire CPU ou le stockage en réseau.
- Clusters et contrôleurs basés sur Kubernetespour une planification plus efficace des ressources informatiques et de stockage, à mesure que les demandes de charge de travail fluctuent, en assurant la meilleure performance et la latence la plus faible.
- Routage axé sur l'IA pour les réseauxafin d'organiser les demandes d'entrée pour les serveurs et accélérateurs qui possèdent probablement des caches récents de calculs antérieurs à l'inférence.
- API de communication haute performancepour un transfert de données plus rapide et efficace entre serveurs, avec support pour la NVIDIA Inference Xfer Library (NIXL).
llm-d : unanime parmi les leaders de l'industrie
Ce nouveau projet open source bénéficie déjà du soutien d'une coalition formidable de principaux fournisseurs de modèles d'IA générative, pionniers en accélérateurs d'IA et plateformes cloud leaders axées sur l'IA. CoreWeave, Google Cloud, IBM Research et NVIDIA sont les partenaires fondateurs, avec AMD, Cisco, Hugging Face, Intel, Lambda et Mistral AI en tant que partenaires, mettant en évidence la forte collaboration de l'industrie pour façonner l'avenir de l'exécution des LLM à grande échelle. La communauté llm-d bénéficie également du soutien d'institutions académiques telles que le Sky Computing Lab de l'Université de Californie, créateurs du vLLM, et le LMCache Lab de l'Université de Chicago, créateurs duLMCache.
Fidèle à son engagement inébranlable envers la collaboration ouverte, Red Hat reconnaît l'importance cruciale de communautés dynamiques et accessibles dans le paysage en rapide évolution de l'inférence en IA générative. Red Hat soutiendra activement la croissance de la communauté llm-d, en favorisant un environnement inclusif pour les nouveaux membres et en stimulant son évolution continue.
La vision de Red Hat : n'importe quel modèle, n'importe quel accélérateur, n'importe quel cloud
L'avenir de l'IA doit être défini par des opportunités illimitées et non limité par des silos d'infrastructure. Red Hat envisage un horizon où les organisations pourront déployer n'importe quel modèle, sur n'importe quel accélérateur, dans n'importe quel cloud, offrant une expérience utilisateur exceptionnelle et plus cohérente, sans coûts exorbitants. Pour débloquer le véritable potentiel des investissements en IA générative, les entreprises ont besoin d'une plateforme universelle d'inférence — une nouvelle norme pour des innovations continues et performantes en IA, tant dans le présent que dans les années à venir.
Tout comme Red Hat a été pionnière dans la transformation de Linux en une base fondamentale de l'informatique moderne, l'entreprise est désormais prête à architecturer l'avenir de l'inférence en intelligence artificielle. O vLLM tem o potencial de se tornar uma peça-chave para uma inferência padronizada em IA generativa, e a Red Hat está comprometida em construir um ecossistema próspero não apenas em torno da comunidade vLLM, mas também do llm-d, voltado para inferência distribuída em larga escala. La vision est claire : indépendamment du modèle d'IA, de l'accélérateur sous-jacent ou de l'environnement de déploiement, Red Hat vise à faire du vLLM le standard ouvert définitif pour l'inférence dans le nouveau cloud hybride.
Sommet Red Hat
Participez aux conférences principales du Red Hat Summit pour entendre les dernières nouveautés des dirigeants, clients et partenaires de Red Hat :
- Infrastructure moderne alignée avec l'IA d'entreprise— Mardi 20 mai, 8h-10h EDTYouTube)
- Le cloud hybride évolue pour stimuler l'innovation en entreprise— Mercredi 21 mai, 8h-9h30 EDTYouTube)