El llm-d, un nuevo proyecto de código abierto acaba de ser lanzado con el apoyo de empresas como CoreWeave, Google Cloud, IBM Research y NVIDIA. La iniciativa se centra en acelerar la necesidad más crucial para el futuro de la IA generativa (IA generativa): la inferencia a escala.Basado en una arquitectura nativa de Kubernetes, el programa utiliza inferencia distribuida con vLLM y enrutamiento de red inteligente y sensible a la IA, permitiendo la creación de nubes de inferencia robustas para modelos de lenguaje a gran escala (LLM) que cumplen con los objetivos de nivel de servicio (SLOs) más exigentes en producción.
Aunque la capacitación sigue siendo vital, el verdadero impacto de la IA generativa depende de inferencias más eficientes y escalables, el mecanismo que transforma los modelos de IA en conocimientos prácticos y experiencias para el usuario. Según Gartner, hasta 2028, a medida que el mercado madure, más del 80% de los aceleradores de carga de trabajo en centros de datos serán implementados específicamente para inferencia, en lugar de entrenamiento. Eso significa que el futuro de la IA generativa está en la capacidad de ejecución. Las crecientes demandas de recursos de modelos de razonamiento cada vez más sofisticados y complejos limitan la viabilidad de la inferencia centralizada y amenazan con crear cuellos de botella en la innovación en IA, debido a costos prohibitivos y latencia paralizante
Respondiendo a la necesidad de inferencia escalable
Red Hat y sus socios de la industria están enfrentando directamente este desafío con el llm-d, un proyecto visionario que amplía el poder del vLLM para superar las limitaciones de un solo servidor y liberar la producción a escala para inferencia de IA. Usando el poder comprobado de orquestación de Kubernetes, el llm-d integra capacidades avanzadas de inferencia en las infraestructuras de TI corporativas existentes. Esta plataforma unificada capacita a los equipos de TI a atender las diversas demandas de servicio de cargas de trabajo críticas para los negocios, mientras implementa técnicas innovadoras para maximizar la eficiencia y reducir drásticamente el costo total de propiedad (TCO) asociado a aceleradores de IA de alto rendimiento.
El llm-d ofrece un conjunto poderoso de innovaciones, con destaque para:
- vLLM, que rápidamente se convirtió en el servidor de inferencia de código abierto por defectoofreciendo soporte de modelo desde el día cero para modelos emergentes de frontera y soporte para una amplia lista de aceleradores, incluyendo ahora las Unidades de Procesamiento de Tensor (TPUs) de Google Cloud.
- Prefill y decodificación desglosadapara separar el contexto de entrada y la generación de tokens de IA en operaciones distintas, que pueden ser distribuidas entre múltiples servidores.
- Descarga de caché KV (clave-valor), basado en LMCache, esta función transfiere la carga de memoria del caché KV de la memoria de la GPU a un almacenamiento estándar más económico y abundante, como memoria de la CPU o almacenamiento en red.
- Clústeres y controladores basados en Kubernetespara una programación más eficiente de recursos de computación y almacenamiento, a medida que las demandas de carga de trabajo fluctúan, asegurando el mejor rendimiento y la menor latencia.
- Enrutamiento con enfoque en IA para redescon el fin de programar solicitudes de entrada para los servidores y aceleradores que probablemente tienen cachés recientes de cálculos anteriores a la inferencia.
- APIs de comunicación de alto rendimientopara una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).
llm-d: unánime entre líderes de la industria
Este nuevo proyecto de código abierto ya cuenta con el apoyo de una formidable coalición de principales proveedores de modelos de IA generativa, pioneros en aceleradores de IA y plataformas en la nube líderes en IA. CoreWeave, Google Cloud, IBM Research y NVIDIA son los colaboradores fundadores, con AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI como socios, destacando la fuerte colaboración de la industria para diseñar el futuro de la ejecución de LLMs a escala. La comunidad llm-d también cuenta con el apoyo de instituciones académicas como Sky Computing Lab de la Universidad de California, creadores del vLLM, y el LMCache Lab de la Universidad de Chicago, creadores delLMCache.
Fiel a su compromiso inquebrantable con la colaboración abierta, Red Hat reconoce la importancia crítica de comunidades vibrantes y accesibles en el escenario en rápida evolución de la inferencia de gen AI. Red Hat apoyará activamente el crecimiento de la comunidad llm-d, promoviendo un entorno inclusivo para nuevos miembros y impulsando su evolución continua.
La visión de Red Hat: cualquier modelo, cualquier acelerador, cualquier nube
El futuro de la IA debe estar definido por oportunidades ilimitadas y no restringido por silos de infraestructura. Red Hat visualiza un horizonte en el que las organizaciones puedan implementar cualquier modelo, en cualquier acelerador, en cualquier nube, ofreciendo una experiencia de usuario excepcional y más consistente, sin costos exorbitantes. Para desbloquear o verdadeiro potencial dos investimentos em IA generativa, as empresas precisam de uma plataforma universal de inferência — um novo padrão para inovações em IA contínuas e de alto desempenho, tanto no presente quanto nos próximos anos.
Así como Red Hat fue pionera en la transformación de Linux en la base fundamental de la TI moderna, la empresa ahora está preparada para diseñar el futuro de la inferencia de IA. O vLLM tem o potencial de se tornar uma peça-chave para uma inferência padronizada em IA generativa, e a Red Hat está comprometida em construir um ecossistema próspero não apenas em torno da comunidade vLLM, mas também do llm-d, voltado para inferência distribuída em larga escala. La visión es clara: independientemente del modelo de IA, del acelerador subyacente o del entorno de implementación, Red Hat pretende convertir a vLLM en el estándar abierto definitivo para la inferencia en la nueva nube híbrida.
Cumbre de Red Hat
Participe en las conferencias principales de Red Hat Summit para escuchar las últimas novedades de ejecutivos, clientes y socios de Red Hat:
- Infraestructura moderna alineada con la IA empresarial—Martes, 20 de mayo, de 8 a 10 h EDTYouTube)
- La nube híbrida evoluciona para impulsar la innovación empresarialMiércoles, 21 de mayo, de 8:00 a 9:30 h EDTYouTube)