StartNachrichtVeröffentlichungenRed Hat startet die Community llm-d, um die verteilte Inferenz von Gen... voranzutreiben

Red Hat startet die Community llm-d, um die verteilte Inferenz von generativer KI im großen Maßstab voranzutreiben

 Der llm-d, ein neues Open-Source-Projekt, wurde kürzlich mit Unterstützung von Unternehmen wie CoreWeave, Google Cloud, IBM Research und NVIDIA gestartet. Die Initiative konzentriert sich darauf, die wichtigste zukünftige Herausforderung der generativen KI (gen AI) zu beschleunigen: die skalierte Inferenz.Basierend auf einer nativen Kubernetes-Architektur verwendet das Programm verteilte Inferenz mit vLLM und intelligentes, KI-empfindliches Netzwerk-Routing, um robuste Inferenz-Clouds für großskalige Sprachmodelle (LLMs) zu erstellen, die den anspruchsvollsten Service-Level-Objectives (SLOs) in der Produktion entsprechen.

Obwohl das Training weiterhin entscheidend ist, hängt die wahre Wirkung der generativen KI von effizienteren und skalierbareren Inferenzen ab – dem Mechanismus, der KI-Modelle in praktische Erkenntnisse und Nutzererlebnisse umwandelt. Laut Gartner werden bis 2028, wenn sich der Markt weiterentwickelt, mehr als 80 % der Workload-Beschleuniger in Rechenzentren speziell für Inferenz und nicht für Training eingesetzt. Das bedeutet, dass die Zukunft der generativen KI in der Ausführungsfähigkeit liegt. Die zunehmenden Ressourcenanforderungen immer ausgefeilterer und komplexerer Denkmodelle begrenzen die Machbarkeit zentralisierter Inferenz und drohen, Innovationsblockaden in der KI zu verursachen, aufgrund von prohibitiv hohen Kosten und lähmender Latenz

Antwort auf die Notwendigkeit skalierbarer Inferenz

Red Hat und ihre Branchenpartner stellen sich dieser Herausforderung direkt mit dem llm-d, einem visionären Projekt, das die Leistungsfähigkeit von vLLM erweitert, um die Einschränkungen eines einzelnen Servers zu überwinden und die Produktion im großen Maßstab für KI-Inferenz freizusetzen. Durch die bewährte Orchestrierungsfähigkeit von Kubernetes integriert llm-d fortschrittliche Inferenzfähigkeiten in bestehende Unternehmens-IT-Infrastrukturen. Diese einheitliche Plattform befähigt IT-Teams, die vielfältigen Serviceanforderungen kritischer Geschäfts-Workloads zu erfüllen, während sie innovative Techniken implementieren, um die Effizienz zu maximieren und die Gesamtkosten des Eigentums (TCO) im Zusammenhang mit Hochleistungs-KI-Beschleunigern drastisch zu senken.

Das llm-d bietet eine leistungsstarke Reihe von Innovationen, insbesondere:

  • vLLM, das sich schnell zum Standard-Open-Source-Inferenzserver entwickelt hat,Bereitstellung von Modelldiensten ab dem ersten Tag für aufstrebende Grenzmodelle und Unterstützung für eine Vielzahl von Beschleunigern, einschließlich der Tensor Processing Units (TPUs) von Google Cloud.
  • Vordefinierung und entkoppelte Decodierungum den Kontext der Eingabe und die Generierung von KI-Token in separate Operationen aufteilen, die auf mehrere Server verteilt werden können.
  • Cache-KV (Schlüssel-Wert) Entladung, basierend auf LMCache, überträgt diese Funktion die Speicherbelastung des KV-Cache vom GPU-Speicher auf eine kostengünstigere und größere Standardlagerung, wie CPU-Speicher oder Netzwerk-Storage.
  • Cluster und Controller basierend auf KubernetesFür eine effizientere Planung von Rechen- und Speicherressourcen, während die Arbeitslasten schwanken, um die beste Leistung und die geringste Latenz zu gewährleisten.
  • Routing mit Fokus auf KI für NetzwerkeUm die Eingangsanforderungen für Server und Beschleuniger zu planen, die wahrscheinlich aktuelle Caches früherer Berechnungen vor der Inferenz haben.
  • Hochleistungs-Kommunikations-APIsfür eine schnellere und effizientere Datenübertragung zwischen Servern, mit Unterstützung der NVIDIA Inference Xfer Library (NIXL).

llm-d: einstimmig unter Branchenführern

Dieses neue Open-Source-Projekt wird bereits von einer beeindruckenden Koalition führender Anbieter von generativen KI-Modellen, Pionieren im Bereich KI-Beschleuniger und führenden Cloud-Plattformen für KI unterstützt. CoreWeave, Google Cloud, IBM Research und NVIDIA sind die Gründungspartner, mit AMD, Cisco, Hugging Face, Intel, Lambda und Mistral AI als Partnern, was die starke Zusammenarbeit der Industrie bei der Gestaltung der Zukunft der skalierbaren Ausführung von LLMs hervorhebt. Die Community llm-d wird auch von akademischen Institutionen unterstützt, wie dem Sky Computing Lab der University of California, den Schöpfern von vLLM, und dem LMCache Lab der University of Chicago, den Schöpfern desLMCache.

Treue zu seinem unerschütterlichen Engagement für offene Zusammenarbeit erkennt Red Hat die entscheidende Bedeutung lebendiger und zugänglicher Gemeinschaften im sich schnell entwickelnden Bereich der Gen-AI-Inferenz an. Red Hat wird aktiv das Wachstum der llm-d-Community unterstützen, indem es ein inklusives Umfeld für neue Mitglieder fördert und ihre kontinuierliche Weiterentwicklung vorantreibt.

Die Vision von Red Hat: jedes Modell, jeder Beschleuniger, jede Cloud

Die Zukunft der KI sollte durch unbegrenzte Möglichkeiten bestimmt werden und nicht durch Infrastruktursilos eingeschränkt sein. Red Hat sieht eine Zukunft, in der Organisationen jedes Modell, jeden Beschleuniger und jede Cloud implementieren können, um eine außergewöhnliche und konsistente Benutzererfahrung zu bieten, ohne exorbitante Kosten. Um die wahre Potenzial der Investitionen in generative KI freizusetzen, benötigen Unternehmen eine universelle Inferenzplattform — einen neuen Standard für kontinuierliche und hochleistungsfähige KI-Innovationen, sowohl in der Gegenwart als auch in den kommenden Jahren.

So wie Red Hat Pionier bei der Transformation von Linux zur grundlegenden Basis der modernen IT war, ist das Unternehmen jetzt bereit, die Zukunft der KI-Inferenz zu gestalten. O vLLM hat das Potenzial, ein Schlüsselelement für standardisierte Inferenz in der generativen KI zu werden, und Red Hat ist bestrebt, ein florierendes Ökosystem aufzubauen, das nicht nur die vLLM-Community, sondern auch das llm-d, das auf groß angelegte verteilte Inferenz ausgerichtet ist, umfasst. Die Vision ist klar: Unabhängig vom KI-Modell, dem zugrunde liegenden Beschleuniger oder der Bereitstellungsumgebung strebt Red Hat an, vLLM zum endgültigen offenen Standard für Inferenz in der neuen Hybrid-Cloud zu machen.

Red Hat Gipfel

Nehmen Sie an den Keynotes des Red Hat Summit teil, um die neuesten Neuigkeiten von Red Hat-Führungskräften, Kunden und Partnern zu hören:

E-Commerce-Update
E-Commerce-Updatehttps://www.ecommerceupdate.org
E-Commerce Update ist ein führendes Unternehmen auf dem brasilianischen Markt, das auf die Produktion und Verbreitung hochwertiger Inhalte zum E-Commerce-Sektor spezialisiert ist.
Ähnliche Artikel

LASS EINE ANTWORT DA

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

JÜNGSTE

AM POPULÄRSTEN

[elfsight_cookie_consent id="1"]