InícioNotíciasLançamentosRed Hat lanza la comunidad llm-d, que impulsa la inferencia distribuida de...

Red Hat lanza la comunidad llm-d, que impulsa la inferencia distribuida de Gen AI a escala

 llm-d, un nuevo proyecto de código abierto, acaba de lanzarse con el apoyo de empresas como CoreWeave, Google Cloud, IBM Research y NVIDIA. La iniciativa se centra en acelerar la necesidad más crucial para el futuro de la IA generativa (IA gen): la inferencia a escala. Basado en una arquitectura nativa de Kubernetes, el programa utiliza inferencia distribuida con vLLM y enrutamiento de red inteligente compatible con IA, lo que permite la creación de nubes de inferencia robustas para modelos de lenguaje (LLM) a gran escala que cumplen con los objetivos de nivel de servicio (SLO) más exigentes en producción.

Si bien el entrenamiento sigue siendo vital, el verdadero impacto de la IA Gen depende de una inferencia más eficiente y escalable, el motor que transforma los modelos de IA en información práctica y experiencias de usuario. Según Gartner, para 2028, a medida que el mercado madure, más del 80 % de los aceleradores de carga de trabajo en los centros de datos se implementarán específicamente para la inferencia, en lugar del entrenamiento. Esto significa que el futuro de la IA Gen reside en la capacidad de ejecución. La creciente demanda de recursos de modelos de razonamiento cada vez más sofisticados y complejos limita la viabilidad de la inferencia centralizada y amenaza con crear cuellos de botella en la innovación en IA debido a los costos prohibitivos y la latencia abrumadora.

Respondiendo a la necesidad de inferencia escalable 

Red Hat y sus socios del sector abordan este desafío directamente con llm-d, un proyecto visionario que amplía la potencia de vLLM para superar las limitaciones de un único servidor y desbloquear la inferencia de IA a escala de producción. Utilizando la probada capacidad de orquestación de Kubernetes, llm-d integra capacidades avanzadas de inferencia en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI satisfacer las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, a la vez que implementa técnicas innovadoras para maximizar la eficiencia y reducir drásticamente el coste total de propiedad (TCO) asociado a los aceleradores de IA de alto rendimiento.

llm-d ofrece un potente conjunto de innovaciones, que incluyen:

  • vLLM, que rápidamente se convirtió en el servidor de inferencia de código abierto estándar, ofreciendo soporte de modelo de día cero para modelos de frontera emergentes y soporte para una amplia lista de aceleradores, que ahora incluyen unidades de procesamiento tensorial (TPU) de Google Cloud.
  • Prellenado y decodificación desagregada para separar el contexto de entrada y la generación de tokens de IA en operaciones distintas, que pueden distribuirse entre múltiples servidores.
  • Descarregamento de Cache KV (key-value), basada en LMCache, esta función cambia la carga de memoria caché KV de la memoria de la GPU a un almacenamiento estándar más económico y abundante, como la memoria de la CPU o el almacenamiento de red.
  • Clústeres y controladores basados ​​en Kubernetes para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, garantizando el mejor rendimiento y la menor latencia.
  • Enrutamiento con enfoque en IA para redes para programar solicitudes entrantes a servidores y aceleradores que probablemente tengan cachés recientes de cálculos antes de la inferencia.
  • API de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).

llm-d: unánime entre los líderes de la industria

Este nuevo proyecto de código abierto ya cuenta con el apoyo de una formidable coalición de proveedores líderes en modelado de IA, pioneros en aceleradores de IA y plataformas de nube líderes centradas en IA. CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores, con AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI como socios, lo que pone de relieve la sólida colaboración en la industria para diseñar el futuro de la ejecución de LLM a escala. La comunidad llm-d también cuenta con el apoyo de instituciones académicas como el Sky Computing Lab de la Universidad de California, Berkeley, creadores de vLLM, y el LMCache Lab de la Universidad de Chicago, creadores de LMCache.

Fiel a su firme compromiso con la colaboración abierta, Red Hat reconoce la importancia crucial de contar con comunidades dinámicas y accesibles en el cambiante panorama de la inferencia de IA general. Red Hat apoyará activamente el crecimiento de la comunidad llm-d, fomentando un entorno inclusivo para los nuevos miembros e impulsando su evolución continua.

La visión de Red Hat: cualquier modelo, cualquier acelerador, cualquier nube

El futuro de la IA debería definirse por oportunidades ilimitadas, no por silos de infraestructura. Red Hat visualiza un futuro donde las organizaciones puedan implementar cualquier modelo, en cualquier acelerador, en cualquier nube, ofreciendo una experiencia de usuario excepcional y más consistente sin costos exorbitantes. Para liberar el verdadero potencial de las inversiones en IA de Generación, las empresas necesitan una plataforma de inferencia universal: un nuevo estándar para la innovación continua y de alto rendimiento en IA, tanto ahora como en los próximos años.

Así como Red Hat fue pionera en la transformación de Linux en la base de la TI moderna, la compañía ahora está preparada para diseñar el futuro de la inferencia de IA. vLLM tiene el potencial de convertirse en un componente clave de la inferencia estandarizada en IA de Generación, y Red Hat se compromete a construir un ecosistema próspero no solo en torno a la comunidad vLLM, sino también en torno a llm-d, que se centra en la inferencia distribuida a gran escala. La visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat pretende convertir vLLM en el estándar abierto definitivo para la inferencia en la nueva nube híbrida.

Cumbre de Red Hat

Únase a las conferencias magistrales de Red Hat Summit para escuchar las últimas novedades de los ejecutivos, clientes y socios de Red Hat:

MATÉRIAS RELACIONADAS

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

RECENTES

MAIS POPULARES

[elfsight_cookie_consent id="1"]