¿El uso de la inteligencia artificial en la seguridad puede ser la solución a las ciber-amenazas de hoy en día?
En cualquier época de la historia, la gente ha buscado una solución milagrosa a sus problemas y preocupaciones importantes, llámese esa solución el Mesías, el santo Grial, los antibióticos… Parece entrar en la naturaleza humana tener la esperanza de encontrar una solución global, que resuelva milagrosamente gran parte de las preguntas esenciales del momento.
Con la Inteligencia Artificial y el Machine Learning parece que nos pasa lo mismo: frente a la avalancha de retos impuestos por la multiplicación de frentes abiertos para los cibercriminales (el ransomware, ataques dirigidos, botnets, APTs, ataques fileless, ataques a la capa cercana al hardware etc.) todos pensamos que la solución puede estar en las tecnologías que emplean el auto-aprendizaje, la correlación de cantidades grandes de información para detectar patrones y características, o en la Inteligencia Artificial.
A lo largo del artículo comentaremos las palabras clave del momento: Machine Learning, Deep Learning, Inteligencia Artificial… Estamos empleando estas tecnologías desde más de ocho años, tenemos varios patentes en el ámbito y continuamos innovando. ¿Cuál sería el beneficio que podemos aportar? Creemos que podemos ahorrar mucho tiempo de investigación y mucho riesgo al escoger.
Inteligencia Artificial y Machine Learning
Aunque se habla mucho de esos dos conceptos en los últimos dos o tres años, en realidad su investigación y uso data desde mucho antes del mismo Internet, con varios picos de interés e inversión a finales de los años 50: la Inteligencia Artificial en 1956 y el Machine Learning a finales de los 80, los últimos años de los 90, y, muy fuertemente, después de 2007.
La Inteligencia Artificial es un concepto muy amplio que incluye cualquier forma de inteligencia relacionada con las máquinas, que no es humana. Durante años, la Inteligencia Artificial se ha organizado en varios campos de trabajo: pensamiento, conocimiento, aprendizaje, planificación, reconocimiento del lenguaje, percepción, interacción y la posibilidad de efectuar acciones. Como ya hemos visto, el aprendizaje automático es solo un campo de la Inteligencia Artificial, que se refiere a la posibilidad de las máquinas de desarrollar algoritmos, clasificar y extraer inteligencia de colecciones grandes de datos, sin ser programadas previamente, y específicamente para unos resultados concretos.
Tanto la IA como el ML se han usado para conseguir progresos importantes en varios ámbitos. Últimamente, debido a la gran cantidad de información que estamos generando con tecnologías más y más potentes, con el IoT y el Internet en general, ha incrementado drásticamente el uso de ambos para trabajar en el Big Data, extraer inteligencia y tomar acciones en función de estas conclusiones.
El uso de ambos en la seguridad
Con la avalancha de los ataques y el tsunami del malware (más de 500.000 nuevas variantes aparecen en circulación cada día), usar la IA para hacer frente a estos fenómenos es una evolución natural. La automatización del malware es probablemente el factor decisivo que fuerza el empleo del aprendizaje automático en la clasificación, prevención y detección del malware y las acciones de remediación. Y la industria de la seguridad informática no ha tardado en investigar, emplear y promocionar este uso del ML como la respuesta absoluta a los retos actuales (y posiblemente futuros).
Pero si es verdad que todos los coches tienen cuatro ruedas, no se puede decir que todos los coches sean iguales. Por analogía, aunque hay un gran ruido en el mercado acerca del Machine Learning en la seguridad y casi todas las marcas importantes tienen un proyecto y una solución basada en ello, la diversidad es grande, lo que hace muy difícil tomar una decisión para el potencial cliente. Nuestra intención es aportar un poco más de luz a este proceso explicando cómo funcionan estas tecnologías, qué se puede esperar de ellas y cuales serían unos posibles criterios de diferenciación.
Para aprender, cualquier módulo de Machine Learning necesita dos cosas fundamentales:
– Colecciones grandes de datos: cuanto más grandes es mejor para la precisión.
– Tiempo para aprender y entrenarse, traducido en ciclos de investigación y desarrollo de algoritmos, tanto de representación como de interpretación de los datos.
La Inteligencia Artificial ha intentado imitar el modo de pensamiento humano, pero se ha encontrado con retos bastante importantes: por un lado la simplificación, (nosotros los humanos, simplificamos la representación de los conceptos para poder extraer conclusiones aplicables), que conlleva el riesgo de pasar por encima de algunos aspectos/características importantes. Y por el otro lado, los “atajos” que usamos debido a nuestra intuición (estos atajos, con más o menos precisión, nos ayudan a ser rápidos en tomar las decisiones, sin hacer análisis de todos los datos disponibles), con el riesgo correspondiente de llegar a tomar decisiones equivocadas.
Cuando aplicamos el Machine Learning al mundo de la seguridad informática, estos retos ganan mucha relevancia, porque si simplificamos se nos pueden escapar eventos de seguridad importantes o los mismos virus, y si “tomamos atajos” podemos llegar a muchas conclusiones equivocadas como son los falsos positivos.
Por esto son importantes tanto el tamaño de las colecciones de datos, como la “experiencia” adquirida por el ML usado, en hacer (mejor o peor) las siguientes tareas:
– Colección y normalización de los datos.
– Análisis y extracción de las características comunes y de las diferencias relevantes.
– Aprendizaje y auto-perfeccionamiento de los propios algoritmos.
– Clasificación de los elementos analizados (ficheros, procesos, técnicas de ataque, código) en benignos y malignos.
Varios fabricantes (Bitdefender incluido) están en este momento proponiendo tecnologías de nueva generación que están bastante avanzados y entrenados. En Bitdefender nos enorgullecemos de haber anticipado esa necesidad hace más de 8 años, llegando a desarrollar una arquitectura innovadora que aprende de más de 12 mil millones de eventos por año, proveyendo de más de 500 millones de sensores; en este momento usamos el Machine Learning tanto a nivel del Threat Intelligence global (el cerebro en el cloud que potencia nuestras soluciones) y a nivel local, aprendiendo tanto de los procesos y comportamientos legítimos de uso como de las anomalías y excepciones.
Y, como en el mundo de las maquinas las aproximaciones no son deseables, hemos implementado varios mecanismos de ajustes y corrección a través de modelos estadísticos y probabilísticos, la predicción de tendencias y la validación de los resultados contra la misma colección de datos, en varios niveles de aprendizaje que incrementan la precisión y reducen el nivel de los falsos positivos. Algunas voces de la industria llaman este tipo de tecnología “Deep Learning” y la consideran el futuro avance. Bitdefender lo ha considerado desde el inicio un proceso normal de autoaprendizaje de varios bucles de feedback para introducir las correcciones necesarias, proceso que se sustenta en varias patentes registradas. Es un proceso muy similar a lo que hacemos los humanos, aprendiendo por varias interaciones, de errores y de buenas experiencias.
Los resultados conseguidos en los últimos años nos han dado muchos motivos para creer que estamos en el buen camino: WannaCry, NotPetya, BadRabbit y todo el ransomware moderno no han constituido nunca una amenaza real para nuestros clientes, nuestro Machine Learning sigue siendo capaz de parrarles en la fase de pre-ejecución.
Pero hay vida para los malos también después del uso de la AI en la seguridad informática. Hemos visto y nos anticipamos un crecimiento del uso de las técnicas de evasión especialmente diseñadas contra estas tecnologías. Hablamos de un incremento de la ofuscación del código maligno, de cambios en los packers, de un incremento de la fragmentación de los ataques y, lo hemos visto ya con BadRabbit, de la intención de usar herramientas populares y disponibles al público que tengan posibilidad de ser whitelisted. También se usa más la técnica de esconder el código detrás de objetos web en sitios populares o de extensiones de navegador.
Por esto somos muy conscientes de que solo el uso de las tecnologías de IA y ML no es la respuesta final. Nosotros nos hemos decantado por una arquitectura adaptativa y multi-nivel (o multi-capa), que pone frente a los malos varios tipos de barreras, obstáculos y “señuelos” durante el ciclo de vida de un ataque, tanto en la fase de pre-ejecución (con las tecnologías predictivas y de detección correlativa y la inteligencia colectiva en la nube) como en la fase de post-ejecución (con nuestro EDR, la inspección de procesos y las tecnologías de remediación). Y, aunque sepamos que tenemos una propuesta compleja y completa, que cubre todos los tipos de endpoints y data centers, en la misma medida somos conscientes que el éxito pasa por mantener la vigilancia y estar siempre un paso por delante de los atacadores.
En conclusión, la IA en la seguridad ayuda mucho pero no es la respuesta final. Y tenemos que entender los fallos y preparar controles compensatorios para mitigar los riesgos correspondientes.
Horatiu Bandoiu
Director de marketing de Bitdefender España