Los modelos de aprendizaje automático evalúan los datos de telemetría de soporte automático de los sistemas de almacenamiento, lo que permite establecer comparaciones entre sus propios sistemas y otros cientos de miles en tiempo real. Las comparaciones con las prácticas recomendadas de la comunidad también permiten realizar sugerencias totalmente automatizadas para optimizar la gestión de sus propios datos. El servicio en la nube Active IQ de NetApp permite a los responsables de sistemas de nube híbrida sacar partido de esta inteligencia.
El mantenimiento predictivo proactivo ha pasado a ser habitual en automóviles y aviones, donde las competiciones automovilísticas han brindado entornos de pruebas con condiciones especialmente extremas. Grandes cantidades de datos sobre el estado de los vehículos, sobre todo de los motores, se envían directamente a un sistema central en fracciones de segundo, pasan por el piloto y se analizan inmediatamente.
NetApp ha venido prestando un servicio equiparable desde 1995, cuando el término «Big Data» era poco conocido. Sus sistemas de telemetría supervisan más de 300.000 soluciones de gestión de datos en todo el mundo, y cada sistema genera registros e información acerca de la configuración y el rendimiento del sistema, lo que implica que los clientes y el fabricante están continuamente informados sobre el estado de los sistemas. A diario se recopilan 200.000 millones de puntos de datos, lo que corresponde a unos 200 TB mensuales. Hasta hace algunos años esta aplicación recibía el nombre de «AutoSupport» y presentaba una naturaleza reactiva: si se detectaban cuellos de botella de memoria o incluso posibles fallos, se generaban casos de soporte o incidencias.
Con todo, el conjunto de datos multipetabyte a partir de datos de telemetría también resulta perfecto para calibrar modelos de Machine Learning. NetApp lleva utilizando métodos de Inteligencia Artificial (IA) para analizar los datos de telemetría durante más de dos años, y el sistema ha experimentado un desarrollo exponencial que merece una nueva denominación: Active IQ. Ahora no sólo se evalúan los datos históricos y se monitorizan las configuraciones del sistema, sino que se comparan en tiempo real. Los recursos incluyen la experiencia de gestión de datos del proveedor, así como grandes cantidades de datos y modelos de Machine Learning: 1.500 ingenieros de sistemas en NetApp tienen acceso al conjunto de datos multipetabyte.
Un panel de control proporciona análisis y recomendaciones en tiempo real
Los clientes esperan —y obtienen— una visión general de sus sistemas del modo más actualizado posible. Un panel de control proporciona visibilidad en tiempo real sobre el estado del sistema, con acceso a análisis y predicciones a través de un navegador web o de una aplicación móvil en cualquier momento y lugar. La pantalla principal muestra ya el entorno del sistema y hace recomendaciones de manera proactiva acerca de intervenciones. Un asistente de «tendencias de estado» resume los riesgos actuales de la infraestructura de almacenamiento, mientras que el «asesor de riesgos» determina si éstos pueden eliminarse, por ejemplo, actualizando el sistema operativo a una versión posterior. Una tabla muestra el porcentaje de sistemas de NetApp en los que una actualización del sistema operativo ha eliminado un riesgo grave. El conocimiento de la comunidad, la extensa base instalada de NetApp, entra en juego aquí directamente.
Otro asistente ofrece predicciones de capacidad. Para garantizar que el espacio de almacenamiento no se agote, se muestran los sistemas con una utilización del 90% o superior. Pueden cursarse pedidos de memoria adicional con tan solo un clic de ratón. También existe un asistente para contratos de soporte que muestra qué contratos han vencido o están próximos a vencimiento.
Reconocer y evitar los desastres de antemano
El asistente de eficiencia de almacenamiento compara la eficiencia de su sistema con la media de los sistemas All-Flash FAS de la base instalada de NetApp. Lo que ya se ha demostrado con otros clientes en situaciones comparables (prácticas recomendadas) se recomienda como posibilidad de mejora. Si la eficiencia del sistema observado está por debajo de la media, Active IQ hace recomendaciones sobre cómo aumentar la capacidad mediante la actualización a un sistema all flash, por ejemplo. El grado de detalle del panel de control puede ajustarse mediante desglose, mostrando los datos para el sitio, clúster o red de almacenamiento que se haya seleccionado.
Las evaluaciones continuas de riesgo permiten intervenir antes de que los riesgos puedan afectar a la estabilidad del sistema. Así pues, los posibles desastres pueden reconocerse y evitarse de antemano. En el caso de cuellos de botella del sistema, la monitorización en tiempo real garantiza la resolución de los problemas de rendimiento antes de que se produzcan interrupciones. La seguridad se potencia y, por tanto, las inversiones están mejor protegidas. Aunque las demandas en la gestión de datos aumentan constantemente, los usuarios siempre van un paso por delante del desarrollo porque, al tiempo que se supervisa el uso de la capacidad, también se prevé el uso futuro. Cuando surge un problema, Active IQ comprueba inmediatamente si se trata de un fenómeno conocido o de un suceso nuevo.
La supervisión constante de la plataforma también libera al personal de TI. Solo se alerta al soporte técnico si se precisa una intervención, y los empleados reciben automáticamente recomendaciones concretas para la configuración individual (resolución de problemas guiada). Esto es posible gracias a que el registro anónimo y los ficheros de configuración, así como los datos de telemetría, se analizan utilizando constantemente algoritmos de machine learning. Los modelos también comparan cargas de trabajo entre sistemas similares y se tornan más inteligentes con el paso del tiempo. Los clientes pueden aprender continuamente de los mejores, porque el rendimiento del sistema y la configuración se comparan de manera continua y automática con los mejores sistemas en la comunidad.
La interfaz entre el hombre y la máquina se torna más natural
El machine learning también contribuye a mejorar considerablemente la interfaz entre el hombre y la máquina. Con la ayuda de IBM Watson, podría crearse un chatbot con un agente de soporte virtual. Esto garantiza respuestas rápidas y, por tanto, acorta los tiempos de espera. Pronto el machine learning generará informes con resúmenes de prácticas recomendadas que se facilitarán en formato de texto.
Active IQ es un servicio basado en datos que combina inteligencia artificial, machine learning y conocimiento de la comunidad. Los clientes reciben un análisis predictivo, soporte proactivo y recomendaciones prácticas para optimizar la gestión de sus datos. Active IQ aprende continuamente y permite aprovechar todo el potencial de los datos. Pueden procesarse advertencias del sistema inmediatamente sin procesamiento convencional por lotes y, por tanto, sin demora. El 98% de los problemas técnicos se resuelve automáticamente y, si resulta imposible, el equipo de soporte puede solucionar los problemas un 60% más rápido utilizando los datos de telemetría. El volumen total de costes generados por defecto y el valor del tiempo ahorrado equivale a 600 millones de USD, según IDC, y el ciclo de desarrollo de nuevos servicios de análisis se redujo de seis meses a tan solo un mes. Igualmente, las recomendaciones predictivas de Active IQ disminuyen los casos de soporte un 85 por ciento en todo el mundo.
Jaime Balañá
Director Técnico de NetApp España.