llm-d,一个由CoreWeave、Google Cloud、IBM Research和NVIDIA等公司支持的开源新项目刚刚发布。 该倡议的重点是加快生成式人工智能(gen AI)未来最关键的需求:大规模推理。基于Kubernetes的原生架构,该程序采用分布式推理与vLLM以及智能、敏感的网络路由,允许创建强大的推理云,用于大规模语言模型(LLM),以满足生产中最苛刻的服务水平目标(SLOs)。
虽然培训仍然至关重要,但真正影响生成式人工智能的关键在于更高效、更可扩展的推理——将人工智能模型转化为实际洞察和用户体验的机制。 根据Gartner的预测,到2028年,随着市场的成熟,超过80%的数据中心工作负载加速器将专门用于推理,而非训练。 这意味着生成式人工智能的未来在于执行能力。 日益增长的对更复杂、更精密的推理模型资源的需求限制了集中推理的可行性,并威胁着人工智能创新的瓶颈,原因是高昂的成本和令人瘫痪的延迟
响应可扩展推理的需求
红帽及其行业合作伙伴正直面这一挑战,推出llm-d,这是一个具有远见的项目,扩展了vLLM的能力,以克服单一服务器的限制,并实现大规模的AI推理生产。 利用经过验证的Kubernetes编排能力,llm-d将先进的推理能力集成到现有的企业IT基础设施中。 这个统一平台使IT团队能够满足关键业务工作负载的各种服务需求,同时采用创新技术以最大化效率并大幅降低与高性能AI加速器相关的总拥有成本(TCO)。
llm-d 提供了一套强大的创新,重点包括:
- vLLM,迅速成为开源推理服务器的标准。从零开始为前沿新兴模型提供模型支持,并支持广泛的加速器列表,现在包括谷歌云的张量处理单元(TPUs)。
- 预填和解码分解为了将输入上下文和人工智能令牌生成区分开来,可以在不同的操作中进行,这些操作可以分布在多个服务器之间。
- KV(键值)缓存卸载基于LMCache,这个功能将KV缓存的内存负载从GPU内存转移到更经济且容量更大的标准存储,如CPU内存或网络存储。
- 基于 Kubernetes 的集群和控制器为了在工作负载需求波动时实现更高效的计算和存储资源调度,确保最佳性能和最低延迟。
- 以人工智能为重点的网络路由为了安排服务器和加速器的输入请求,这些设备可能具有最近的计算缓存,早于推理。
- 高性能通信API为了在服务器之间实现更快更高效的数据传输,支持NVIDIA推理传输库(NIXL)。
llm-d:行业领导者的一致认同
这个新的开源项目已经得到了由主要的生成式人工智能模型提供商、人工智能加速器先驱以及领先的云平台组成的强大联盟的支持。 CoreWeave、Google Cloud、IBM Research 和 NVIDIA 是创始合作伙伴,AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 作为合作伙伴,突显了行业在设计大规模 LLM 执行未来方面的紧密合作。 llm-d 社区还得到了学术机构的支持,如加州大学的 Sky Computing Lab(vLLM 的创造者)和芝加哥大学的 LMCache Lab(其创造者)LM缓存.
忠于其坚定不移的开放合作承诺,Red Hat 认识到在快速发展的生成式人工智能推理领域中,充满活力且易于接近的社区具有关键的重要性。 Red Hat 将积极支持 llm-d 社区的增长,营造包容的新成员环境,并推动其持续发展。
Red Hat的愿景:任何模型,任何加速器,任何云
人工智能的未来应由无限的机遇定义,而不应被基础设施的孤岛所限制。 红帽展望一个未来,组织可以在任何加速器、任何云上部署任何模型,提供卓越且更一致的用户体验,而无需高昂的成本。 为了释放生成式人工智能投资的真正潜力,企业需要一个通用的推理平台——一个用于持续高性能人工智能创新的新标准,无论是在现在还是未来几年。
就像红帽公司在将Linux转变为现代信息技术的基础方面开创了先河一样,该公司现在也准备好架构人工智能推理的未来。 O vLLM 有潜力成为标准化生成式人工智能推理的关键环节,Red Hat 致力于构建一个繁荣的生态系统,不仅围绕 vLLM 社区,还包括面向大规模分布式推理的 llm-d。 愿景清晰:无论是何种人工智能模型、底层加速器或部署环境,Red Hat 都旨在将 vLLM 打造成新混合云中推理的终极开源标准。
红帽峰会
参加Red Hat峰会的主题演讲,聆听Red Hat高管、客户和合作伙伴的最新消息:
- 现代基础设施与企业人工智能相结合-星期二,5月20日,东部时间上午8点至10点YouTube)
- 混合云发展以推动企业创新— 2023年5月21日,星期三,东部夏令时间8:00-9:30YouTube)