En plena era de la Inteligencia Artificial (IA) y el Aprendizaje Automático (ML) son pocas las empresas que no están buscando la manera de aprovechar sus ventajas para impulsar la diferenciación de su negocio. La potencia necesaria para sacar todo el provecho de la IA se ha ido consiguiendo en los últimos años, pero la conectividad ha sido un reto. Según explican desde Cisco, las cargas de trabajo de IA y ML no se pueden administrar en un solo nodo o servidor. Por eso, la conectividad, la infraestructura de red, se ha convertido en un elemento aún más crítico al permitir el flujo de información entre diferentes nodos en una red informática con el fin de que los algoritmos y modelos de la organización puedan acceder y procesar datos y crear conocimientos utilizables.
La situación es crítica y ha llevado a la creación de un consorcio encargado de mejorar la tecnología Ethernet actual para que pueda gestionar la escala y la velocidad que requiere la IA. A finales de julio AMD, Arista, Broadcom, Cisco, Eviden, HPE, Intel, Meta y Microsoft anunciaba el Ultra Ethernet Consortium (UEC), un grupo organizado por la Fundación Linux.
Curiosamente la creación de UEC coincide con la celebración, este año, del 50 aniversario de Ethernet.
Dado que los nodos que administran las cargas de trabajo de IA y ML necesitan procesar grandes conjuntos de datos increíblemente rápido, la infraestructura que conecta todos los nodos en la red debe tener una latencia baja, minimizar la «pérdida de paquetes» y ser confiable, aseguran desde Cisco, que explica que una ralentización o pérdida de datos, puede generar resultados catastróficos, “desde un comportamiento impredecible del sistema, un tiempo de respuesta más prolongado, una menor precisión del modelo y el desperdicio de recursos”.
La exigencia en cuanto a pérdida de paquetes y la necesidad de una baja latencia es lo que ha llevado al uso de Infiniband para cargas de trabajo de IA y ML, pero “ethernet está emergiendo ahora como la tecnología de red elegida por muchos clientes”.
Ultra Ethernet
La Ultra Ethernet Consortium (UEC), ha establecido una serie de tecnologías y capacidades centrales que deberá incluir ethernet. A la hora de hacer frente a la baja latencia la especificación en la que trabaja la UEC recoge los siguientes requerimientos de red para la próxima generación de aplicaciones.
- Multi-pathing y packet spraying para garantizar que los flujos de trabajo de IA tengan acceso a un destino simultáneamente.
- Orden de entrega flexible para garantizar que los enlaces Ethernet estén equilibrados de manera óptima; el pedido solo se aplica cuando la carga de trabajo de la IA lo requiere en operaciones con un uso intensivo del ancho de banda.
- Mecanismos modernos de control de congestión para garantizar que las cargas de trabajo de IA eviten puntos de acceso y distribuyan uniformemente la carga a través de rutas múltiples. Se pueden diseñar para trabajar en conjunto con el rociado de paquetes de rutas múltiples, lo que permite un transporte confiable del tráfico de IA.
- Telemetría de extremo a extremo para gestionar la congestión. La información que se origina en la red puede informar a los participantes sobre la ubicación y la causa de la congestión. Acortar la ruta de señalización de congestión y proporcionar más información a los puntos finales permite un control de congestión más receptivo.
La UEC dijo que aumentará la escala, la estabilidad y la confiabilidad de las redes Ethernet junto con una seguridad mejorada.
Por otra parte, además de habilitar redes mejoradas para IA, UEC está desarrollando tecnología para respaldar las necesidades de red de la computación de alto rendimiento (HPC) del futuro. Al reconocer las diferentes sensibilidades al ancho de banda y la latencia, la especificación UEC ofrecerá dos perfiles: uno optimizado para IA y otro optimizado para HPC. Con el aumento de las velocidades y la escala, el enfoque tradicional de confiar solo en el reintento de extremo a extremo es cada vez más oneroso para las cargas de trabajo sensibles a la latencia. El manejo de errores locales en la capa de enlace ha demostrado ser valioso en redes HPC de escalamiento horizontal, como las que se usan en sistemas de exaescala. La especificación UEC proporciona esta capacidad para Ethernet.