Alibaba Group Holding ha desarrollado y probado con éxito un sistema llamado Aegaeon que permite disminuir en un 82% la cantidad de unidades de procesamiento gráfico (GPU) Nvidia necesarias para operar múltiples modelos de inteligencia artificial a gran escala, lo que supone un avance significativo en la eficiencia y los costos de infraestructura.
Alibaba ha dado a conocer su innovador sistema Aegaeon, una solución de agrupamiento computacional diseñada para mejorar la eficiencia en el manejo de modelos de inteligencia artificial (IA) a gran escala, disminuyendo drásticamente la dependencia de las GPUs Nvidia, componentes clave pero costosos en la infraestructura de IA. Según un artículo presentado en el 31º Simposio sobre Principios de Sistemas Operativos (SOSP) en Seúl, Corea del Sur, Aegaeon logró reducir el número de GPUs Nvidia H20 requeridas de 1,192 a solo 213 en las pruebas beta realizadas durante más de tres meses en la plataforma de modelos de Alibaba Cloud, que atiende a decenas de modelos con hasta 72 mil millones de parámetros.
Esta eficiencia se consigue gracias a que Aegaeon permite compartir y escalar dinámicamente el uso de las GPUs entre múltiples modelos concurrentes, gestionando de manera inteligente las solicitudes para que una misma unidad gráfica sirva hasta siete modelos simultáneamente, reduciendo además la latencia en la conmutación entre modelos en un 97%. Antes de esta innovación, Alibaba detectó que un 17.7% de sus GPUs estaban infrautilizadas en atender apenas un 1.35% de las solicitudes, un claro signo de ineficiencia que Aegaeon corrige mediante estrategias de pooling y reescalado automático en tiempo real.
Este avance tecnológico no solo representa un ahorro sustancial en costos de hardware, sino que también fortalece la posición de Alibaba Cloud como un referente en la optimización de servicios de IA, especialmente en un contexto global donde proveedores de servicios en la nube enfrentan una creciente demanda de modelos de lenguaje y otras aplicaciones avanzadas. La iniciativa cuenta con la colaboración de investigadores de la Universidad de Pekín y Alibaba Cloud, quienes destacan que Aegaeon es el primer trabajo que expone los costos excesivos en el despliegue simultáneo de modelos grandes de lenguaje (LLM) disponibles en el mercado.
En paralelo, surgen desafíos geopolíticos y comerciales, ya que las GPUs Nvidia fabricadas para el mercado chino están bajo escrutinio de reguladores por posibles vulnerabilidades de seguridad, lo que impulsa a empresas como Alibaba a reducir su dependencia de hardware extranjero reforzando la autosuficiencia tecnológica local. De esta forma, Aegaeon no solo optimiza recursos, sino que también se alinea con las estrategias nacionales de modernización digital.