Strona główna Aktualności Komunikaty Red Hat uruchamia społeczność llm-d, umożliwiającą rozproszone wnioskowanie w...

Red Hat uruchamia społeczność llm-d, która umożliwia rozproszone wnioskowanie w ramach Gen AI na dużą skalę

 llm-d, nowy projekt open source, właśnie wystartował przy wsparciu takich firm jak CoreWeave, Google Cloud, IBM Research i NVIDIA. Inicjatywa koncentruje się na przyspieszeniu najważniejszej potrzeby przyszłości generatywnej sztucznej inteligencji (gen AI): wnioskowania na dużą skalę. Oparty na architekturze natywnej dla Kubernetes, program wykorzystuje rozproszone wnioskowanie z vLLM i inteligentnym, uwzględniającym sztuczną inteligencję routingiem sieciowym, umożliwiając tworzenie solidnych chmur wnioskowania dla wielkoskalowych modeli językowych (LLM), które spełniają najbardziej rygorystyczne cele poziomu usług (SLO) w środowisku produkcyjnym.

Choć szkolenie pozostaje kluczowe, prawdziwy wpływ sztucznej inteligencji generacji zależy od bardziej wydajnego i skalowalnego wnioskowania – silnika, który przekształca modele sztucznej inteligencji w praktyczne wnioski i doświadczenia użytkowników. Według Gartnera, do 2028 roku, wraz z dojrzewaniem rynku, ponad 80% akceleratorów obciążenia w centrach danych będzie wdrażanych specjalnie do wnioskowania, a nie do szkolenia. Oznacza to, że przyszłość sztucznej inteligencji generacji leży w wydajności wykonawczej. Rosnące zapotrzebowanie na zasoby coraz bardziej zaawansowanych i złożonych modeli wnioskowania ogranicza wykonalność scentralizowanego wnioskowania i grozi powstaniem wąskich gardeł w innowacjach w dziedzinie sztucznej inteligencji ze względu na zaporowe koszty i paraliżujące opóźnienia.

Reagowanie na potrzebę skalowalnego wnioskowania 

Red Hat i jego partnerzy branżowi bezpośrednio odpowiadają na to wyzwanie dzięki llm-d, wizjonerskiemu projektowi, który rozszerza możliwości vLLM, aby pokonać ograniczenia pojedynczego serwera i odblokować inferencję AI w skali produkcyjnej. Wykorzystując sprawdzoną moc orkiestracji Kubernetes, llm-d integruje zaawansowane możliwości inferencji z istniejącą infrastrukturą IT przedsiębiorstwa. Ta ujednolicona platforma umożliwia zespołom IT sprostanie zróżnicowanym wymaganiom usługowym obciążeń o znaczeniu krytycznym dla biznesu, jednocześnie wdrażając innowacyjne techniki maksymalizujące wydajność i radykalnie obniżające całkowity koszt posiadania (TCO) związany z wysokowydajnymi akceleratorami AI.

llm-d oferuje zestaw zaawansowanych innowacji, w tym:

  • vLLM, który szybko stał się standardowym serwerem wnioskowania typu open source, oferującym obsługę modeli od podstaw dla nowych modeli granicznych i obsługę szerokiej gamy akceleratorów, w tym teraz jednostek przetwarzania tensorów (TPU) Google Cloud.
  • Wstępnie wypełnij i rozłóż dekodowanie , aby oddzielić kontekst wejściowy i tokenizację AI na odrębne operacje, które można rozłożyć na wiele serwerów.
  • Odciążenie pamięci podręcznej KV (klucz-wartość) oparte na LMCache. Funkcja ta przenosi obciążenie pamięci podręcznej KV z pamięci GPU do bardziej ekonomicznej i obszernej standardowej pamięci masowej, takiej jak pamięć procesora lub pamięć sieciowa.
  • Klastry i kontrolery oparte na platformie Kubernetes umożliwiają efektywniejsze planowanie zasobów obliczeniowych i pamięci masowej w zależności od zmieniających się wymagań dotyczących obciążenia, gwarantując najlepszą wydajność i najniższe opóźnienia.
  • Routing zorientowany na sztuczną inteligencję w sieciach, umożliwiający planowanie żądań przychodzących do serwerów i akceleratorów, które prawdopodobnie mają ostatnio zapisane w pamięci podręcznej obliczenia przed wnioskowaniem.
  • Wysokowydajne interfejsy API do komunikacji umożliwiające szybszy i efektywniejszy transfer danych między serwerami, z obsługą biblioteki NVIDIA Inference Xfer Library (NIXL).

llm-d: jednomyślni liderzy branży

Ten nowy projekt open source cieszy się już wsparciem imponującej koalicji wiodących dostawców rozwiązań do modelowania AI, pionierów akceleratorów AI oraz wiodących platform chmurowych skoncentrowanych na AI. CoreWeave, Google Cloud, IBM Research i NVIDIA są współzałożycielami, a AMD, Cisco, Hugging Face, Intel, Lambda i Mistral AI są partnerami, co podkreśla silną współpracę branżową w zakresie projektowania przyszłości realizacji LLM na dużą skalę. Społeczność llm-d korzysta również ze wsparcia instytucji akademickich, takich jak Sky Computing Lab na Uniwersytecie Kalifornijskim, twórcy vLLM, oraz LMCache Lab na Uniwersytecie Chicagowskim, twórcy LMCache .

Wierny swojemu niezachwianemu zaangażowaniu w otwartą współpracę, Red Hat dostrzega kluczowe znaczenie dynamicznych i dostępnych społeczności w dynamicznie zmieniającym się krajobrazie wnioskowania AI generacji. Red Hat będzie aktywnie wspierać rozwój społeczności llm-d, tworząc inkluzywne środowisko dla nowych członków i napędzając jej dalszy rozwój.

Wizja Red Hat: dowolny model, dowolny akcelerator, dowolna chmura

Przyszłość sztucznej inteligencji (AI) powinna być definiowana przez nieograniczone możliwości, a nie przez silosy infrastrukturalne. Red Hat przewiduje przyszłość, w której organizacje będą mogły wdrażać dowolny model, na dowolnym akceleratorze i w dowolnej chmurze, zapewniając wyjątkowe i bardziej spójne doświadczenie użytkownika bez wygórowanych kosztów. Aby uwolnić prawdziwy potencjał inwestycji w sztuczną inteligencję generacji, firmy potrzebują uniwersalnej platformy wnioskowania – nowego standardu dla ciągłych, wysokowydajnych innowacji w dziedzinie AI, zarówno teraz, jak i w nadchodzących latach.

Tak jak Red Hat był pionierem w transformacji Linuksa w fundament nowoczesnego IT, tak teraz firma jest gotowa do zaprojektowania przyszłości wnioskowania w sztucznej inteligencji (AI). vLLM ma potencjał, by stać się kluczowym elementem standaryzowanego wnioskowania w sztucznej inteligencji (Gen AI), a Red Hat jest zaangażowany w budowę prężnie rozwijającego się ekosystemu nie tylko wokół społeczności vLLM, ale także wokół llm-d, który koncentruje się na rozproszonym wnioskowaniu na dużą skalę. Wizja jest jasna: niezależnie od modelu AI, akceleratora bazowego czy środowiska wdrożeniowego, Red Hat zamierza uczynić vLLM ostatecznym otwartym standardem wnioskowania w nowej chmurze hybrydowej.

Szczyt Red Hat

Weź udział w wystąpieniach na konferencji Red Hat Summit, aby poznać najnowsze informacje od dyrektorów, klientów i partnerów firmy Red Hat:

Aktualizacja e-commerce
Aktualizacja e-commercehttps://www.ecommerceupdate.org
E-Commerce Update to wiodąca firma na rynku brazylijskim, specjalizująca się w tworzeniu i rozpowszechnianiu wysokiej jakości treści na temat sektora e-commerce.
POWIĄZANE ARTYKUŁY

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę wpisać tutaj swoje imię

OSTATNI

NAJPOPULARNIEJSZE

[elfsight_cookie_consent id="1"]