Comunicados de prensa > Huawei Cloud propone IA sin servidor en KubeCon EU 2024

Huawei Cloud propone IA sin servidor en KubeCon EU 2024

25 mar. 2024

En KubeCon + CloudNativeCon Europe 2024, celebrada en París el 21 de marzo, Dennis Gu, arquitecto jefe de Huawei Cloud, manifestó, en el discurso de apertura titulado “Cloud Native × AI: Unleashing the Intelligent Era with Continuous Open Source Innovation”, que la integración de las tecnologías nativas de la nube y de IA es crucial para impulsar la transformación de la industria. Huawei Cloud planea seguir innovando en proyectos de código abierto y colaborando con desarrolladores para crear una era inteligente.

Dennis Gu, arquitecto jefe de Huawei Cloud

 

La IA plantea desafíos clave para el paradigma nativo de la nube.

En los últimos años, las tecnologías nativas de la nube han revolucionado los sistemas de TI tradicionales y han acelerado los avances digitales en áreas como el Internet y los servicios gubernamentales. La adopción de la nube nativa ha introducido nuevas oportunidades, tales como las ventas ultrarrápidas y las operaciones ágiles, que incluyen DevOps a través de la gobernanza de microservicios. Estos cambios han tenido un impacto significativo en la vida de las personas. El rápido crecimiento y la amplia adopción de la IA, que incluye modelos a gran escala, se han convertido en partes fundamentales de la inteligencia industrial.

Según una encuesta de Epoch en 2023, el cómputo requerido para modelos básicos ha aumentado en 10 veces cada 18 meses, lo que es cinco veces más rápido que la tasa de crecimiento predicha por la Ley de Moore para el cómputo general. La aparición de esta "Nueva ley de Moore" debido a la IA y la prevalencia de modelos de IA a gran escala presenta desafíos para las tecnologías nativas de la nube. En su discurso, Dennis Gu describió los siguientes puntos clave:

·   El bajo aprovechamiento promedio de la GPU/NPU aumenta el costo del entrenamiento y la inferencia de la IA.

·   Las fallas frecuentes de los grandes clústeres de entrenamiento de modelos disminuyen la eficiencia del entrenamiento.

·   La compleja configuración de modelos a gran escala impone exigentes requerimientos en el desarrollo de IA.

·   El despliegue de inferencias de IA a gran escala conlleva el riesgo de retrasos impredecibles en el acceso del usuario final además de implicar posibles problemas de privacidad de datos.

 

La innovación de la IA en Huawei Cloud ofrece a los desarrolladores ideas para hacer frente a los desafíos.

El aumento en el tamaño de los modelos de IA requiere mayor capacidad de cómputo, lo que plantea desafíos para las tecnologías nativas de la nube, pero también crea oportunidades para la innovación en la industria. Dennis Gu compartió experiencias sobre la innovación en IA de Huawei Cloud, proporcionando a los desarrolladores un punto de referencia para abordar los desafíos.

Huawei Cloud utilizó KubeEdge, una plataforma de cómputo de borde nativa de la nube, para crear una plataforma de gestión y planificación multirobot. Con esta plataforma, los usuarios pueden emplear comandos de lenguaje natural para indicar a la plataforma qué acciones llevar a cabo, y el sistema coordinará múltiples robots en el borde para realizar tareas complejas. El sistema está diseñado con una arquitectura compuesta de tres elementos (nube, nodo de borde y robot) para hacer frente a desafíos como la comprensión del lenguaje natural, la planificación y la gestión eficiente de múltiples robots, además de la gestión de acceso entre tipos de robots. Utiliza modelos de gran tamaño para ejecutar comandos de lenguaje natural, además realiza predicción de tráfico, asignación de tareas y planificación de rutas. La arquitectura de tres elementos mejora en gran medida la flexibilidad de la plataforma del robot, incrementa la eficiencia de la gestión en un 25 %, reduce el tiempo de despliegue del sistema en un 30 % y acorta el tiempo necesario para desplegar nuevos robots de meses a días.

Para una plataforma líder en China dedicada a compartir contenido y con una base de más de 100 millones de usuarios activos mensuales, su principal servicio son las recomendaciones en la página de inicio. Esta característica es impulsada por un modelo que cuenta con casi 100 mil millones de parámetros. Para entrenar este modelo, la plataforma utiliza un clúster de entrenamiento con miles de nodos de cómputo, incluidos cientos de ps y trabajadores para una sola tarea de entrenamiento. Por consiguiente, existe una creciente demanda para una planificación de topología más eficiente, con altos niveles de rendimiento y throughput. Volcano, un proyecto de código abierto, mejora el soporte para IA o cargas de trabajo de aprendizaje automático en Kubernetes y ofrece una amplia gama de políticas avanzadas de gestión de trabajos y planificación. Volcano integra algoritmos como la planificación consciente de la topología, el empaquetado de contenedores y la planificación consciente del acuerdo de nivel de servicio (SLA), para lograr una mejora del 20 % en el rendimiento general del entrenamiento y una notable reducción en la complejidad de O&M de la plataforma.

 

La IA sin servidor está a la vanguardia del desarrollo nativo de la nube.

Muchas empresas y desarrolladores se enfrentan al desafío de ejecutar aplicaciones de IA de manera eficiente y confiable mientras minimizan los costos de operación. Huawei Cloud ha desarrollado una solución para este problema mediante la identificación de los requerimientos clave de las plataformas de IA nativas de la nube, introduciendo así un nuevo concepto denominado IA sin servidor.

Durante su discurso, Dennis Gu explicó que la IA sin servidor está diseñada para simplificar tareas complejas de entrenamiento e inferencia, mediante la recomendación inteligente de políticas paralelas, lo que facilita el uso por parte de los desarrolladores. También incluye una función de expansión automática adaptable de GPU/NPU que ajusta dinámicamente la asignación de recursos en función de los cambios en la carga de trabajo en tiempo real, para garantizar una ejecución eficiente de las tareas. Además, dispone de un clúster GPU/NPU en la IA sin servidor a prueba de fallas, lo cual libera a los desarrolladores de la preocupación de que las fallas de hardware puedan interrumpir los servicios. Lo más importante es que la IA sin servidor es compatible con los frameworks de IA convencionales, lo que permite a los desarrolladores integrar fácilmente sus herramientas y modelos de IA existentes.

La IA sin servidor también es un desarrollo muy importante para los proveedores de servicios en la nube. La IA sin servidor proporciona múltiples beneficios, como una mejor utilización de GPU/NPU, cargas de trabajo híbridas más eficientes para el entrenamiento, la inferencia y el desarrollo, adicionalmente su cómputo ecológico gracias a una mejor eficiencia energética se traduce en ahorros de costos en electricidad. Además, la IA sin servidor permite compartir GPU/NPU entre múltiples tenants en distintos espacios o en diferentes momentos, lo que mejora la tasa de reutilización de recursos. El aspecto más significativo de la IA sin servidor es su capacidad para proporcionar calidad de servicio (QoS) y SLA garantizados tanto para las tareas de entrenamiento como de inferencia, lo que asegura un servicio estable y de alta calidad.

En el subforo, los expertos técnicos de Huawei Cloud observaron que las cargas de trabajo de IA o aprendizaje automático que se ejecutan en Kubernetes han aumentado constantemente. Como consecuencia, muchas empresas están desarrollando plataformas de IA nativas de la nube distribuidas en múltiples clústeres de Kubernetes que se extienden a través de varios centros de datos y una amplia gama de tipos de GPU. Karmada y Volcano pueden planificar de forma inteligente las cargas de trabajo de las GPU entre múltiples clústeres, lo que facilita la tolerancia a fallas y garantiza la coherencia y eficiencia tanto dentro como entre clústeres. También son capaces de equilibrar la utilización de recursos en todo el sistema y la calidad de servicio (QoS) de las cargas de trabajo, considerando diferentes prioridades para hacer frente a los desafíos de la gestión de entornos de GPU heterogéneos y a gran escala.

Karmada ofrece una gestión automática de aplicaciones inmediata y confiable en escenarios multinube y de nube híbrida. Un número creciente de usuarios está recurriendo a Karmada para desarrollar soluciones adaptables y eficientes en entornos de producción. En 2023, Karmada fue oficialmente elevado al estatus de proyecto en incubación de la CNCF y la comunidad espera con entusiasmo la incorporación de más socios y desarrolladores.

Volcano Gang Scheduling es una solución diseñada para abordar los desafíos del entrenamiento distribuido de IA y los escenarios de big data, resolviendo problemas como la espera interminable y el interbloqueo en las tareas de entrenamiento distribuido. Gracias a la topología de tareas y la planificación consciente de E/S, se reduce significativamente el retraso en la transmisión de tareas de entrenamiento distribuido, lo que resulta en una mejora del rendimiento del entrenamiento del 31 %. Además, minResources resuelve la contención de recursos entre el controlador de Spark y el ejecutor en entornos de alta simultaneidad, optimizando así el grado de paralelismo y mejorando el rendimiento en un 39.9 %.

Dennis Gu cree que la clave para mejorar la productividad de la IA reside en la agilidad de las tecnologías nativas de la nube y la innovación de plataformas de cómputo heterogéneo de IA. Huawei Cloud se dedica a la innovación de código abierto y tiene como objetivo trabajar con colegas de la industria para marcar el comienzo de una nueva era de inteligencia.