llm-dは、CoreWeave、Google Cloud、IBM Research、NVIDIAなどの企業の支援を受けて、最新のオープンソースプロジェクトとしてリリースされました。 このイニシアチブは、生成AI(gen AI)の未来にとって最も重要なニーズである大規模推論を加速させることに焦点を当てています。Kubernetesのネイティブアーキテクチャに基づき、プログラムはvLLMを用いた分散推論とAIに敏感なインテリジェントネットワークルーティングを利用して、大規模言語モデル(LLM)の堅牢な推論クラウドを構築し、運用環境で最も厳しいサービスレベル目標(SLO)を満たします。
トレーニングは依然として重要ですが、ジェンAIの真の影響は、より効率的でスケーラブルな推論に依存しています。それは、AIモデルを実用的な洞察やユーザー体験に変える仕組みです。 ガートナーによると、2028年までに市場が成熟するにつれて、データセンターのワークロードアクセラレーターの80%以上がトレーニングではなく推論のために特化して導入される。 それは、ジェンAIの未来が実行能力にあることを意味します。 ますます高度で複雑な推論モデルのリソース需要の増加は、集中型推論の実現可能性を制限し、莫大なコストと麻痺させる遅延のためにAIの革新におけるボトルネックを生み出す恐れがあります。
スケーラブルな推論のニーズに応える
Red Hatとその業界パートナーは、llm-dというビジョナリーなプロジェクトでこの課題に直接取り組んでいます。これは、vLLMの能力を拡大し、単一のサーバーの制限を超えて、AI推論のための大規模な生産を可能にするものです。 Kubernetesの確立されたオーケストレーション能力を利用して、llm-dは既存の企業ITインフラに高度な推論機能を統合します。 この統合プラットフォームは、ITチームがビジネスにとって重要なワークロードのさまざまなサービス要求に対応できるようにしながら、高性能AIアクセラレータに関連する総所有コスト(TCO)を大幅に削減し、効率を最大化する革新的な技術を導入します。
llm-dは、次の点で特に注目される強力な革新のセットを提供します。
- vLLMは、迅速にオープンソースの標準推論サーバーとなりました。最前線の新興モデル向けのゼロからのモデルサポートと、Google CloudのTensor Processing Units(TPUs)を含む幅広いアクセラレータのサポートを提供しています。
- 事前入力と非集約的デコード入力コンテキストとAIトークン生成を別々の操作に分離し、複数のサーバー間で分散させることができます。
- KV(キー-バリュー)キャッシュのロードLMCacheに基づいて、この関数はKVキャッシュのメモリ負荷をGPUのメモリから、CPUメモリやネットワークストレージなどのよりコスト効率が良く、容量の大きい標準ストレージに転送します。
- Kubernetesを基盤としたクラスターとコントローラー負荷の変動に応じて、コンピューティングおよびストレージリソースのより効率的なスケジューリングを行い、最良のパフォーマンスと最小のレイテンシを確保します。
- AIを活用したネットワークルーティング推論前の最近の計算キャッシュをおそらく保持しているサーバーやアクセラレータの入力リクエストをスケジュールするため。
- 高性能通信APINVIDIA Inference Xfer Library(NIXL)をサポートし、サーバ間のより高速で効率的なデータ転送のために。
llm-d:業界リーダーの間で一致
この新しいオープンソースプロジェクトは、既に主要なジェンAIモデル提供者、AIアクセラレーターの先駆者、AIに特化したクラウドプラットフォームのリーダーからなる強力な連合の支持を得ています。 CoreWeave、Google Cloud、IBM Research、NVIDIAは創設パートナーであり、AMD、Cisco、Hugging Face、Intel、Lambda、Mistral AIがパートナーとして参加しており、産業界の強力な協力によって大規模なLLMの実行の未来を設計しています。 llm-dコミュニティは、カリフォルニア大学のSky Computing Lab(vLLMの開発者)やシカゴ大学のLMCache Labなどの学術機関の支援も受けています。LMCache.
オープンなコラボレーションへの揺るぎないコミットメントに忠実であり続けるRed Hatは、急速に進化するジェンAI推論の舞台において、活気に満ちたアクセス可能なコミュニティの重要性を認識しています。 Red Hatは、llm-dコミュニティの成長を積極的に支援し、新しいメンバーのための包括的な環境を促進し、その継続的な進化を推進します。
レッドハットのビジョン:あらゆるモデル、あらゆるアクセラレーター、あらゆるクラウド
AIの未来は無限の機会によって定義されるべきであり、インフラのサイロによって制限されるべきではない。 Red Hatは、組織があらゆるモデルを、あらゆるアクセラレーターで、あらゆるクラウド上に展開できる未来を見据えています。これにより、優れたユーザーエクスペリエンスを一貫して提供し、高額なコストをかけずに済むことが可能です。 ジェネAI投資の真の潜在能力を解き放つために、企業は普遍的な推論プラットフォームを必要としています。これは、現在および今後数年間にわたる継続的で高性能なAI革新の新しい標準です。
Red HatがLinuxを現代のITの基盤に変革した先駆者であったように、同社は今、AI推論の未来を設計する準備が整っています。 vLLMは、ジェネレーティブAIにおける標準化された推論の重要な要素となる可能性があり、Red Hatは、vLLMコミュニティだけでなく、大規模分散推論を目的としたllm-dにも焦点を当てた繁栄するエコシステムの構築に取り組んでいます。 ビジョンは明確です:AIモデル、基盤となるアクセラレーター、展開環境に関係なく、Red HatはvLLMを新しいハイブリッドクラウドにおける推論のための究極のオープンスタンダードにすることを目指しています。
レッドハットサミット
Red Hat Summitのキーノートに参加して、Red Hatのエグゼクティブ、顧客、パートナーからの最新情報を聞きましょう。
- 企業向けAIに対応した最新インフラストラクチャ火曜日、5月20日、8時から10時まで EDTユーチューブ)
- ハイブリッドクラウドは、ビジネスイノベーションを促進するために進化しています水曜日、5月21日、8時から9時30分まで EDTユーチューブ)