El concepto de big data hace referencia a la acumulación masiva de datos y generalmente se enmarca en el sector de las tecnologías de la información y la comunicación, pero en realidad existe en todos los sectores en mayor o menor medida. Generamos muchos datos diariamente, hasta el punto de que el límite superior de su procesamiento se ha ido desplazando con el tiempo y se han ido generando nuevos términos como los petabytes o los zettabytes.
Entre los sectores que más datos generan podemos hablar de la investigación, ya que los científicos encuentran grandes contratiempos para almacenar los datos generados en campos como la meteorología, la genómica, la conectómica o los procesos biológicos y ambientales. Pero la ciencia no es la única que explota los límites del big data. Los motores de búsqueda de Internet, las finanzas o la informática de negocios también lidian día a día con volúmenes de datos que se escapan a nuestra imaginación. Sin embargo, la pregunta que todo el mundo se hace es: ¿qué es el big data y cómo le hacemos frente?
Big data: ¿Una moda pasajera?
Parece que en nuestra actual sociedad todo lo tenemos que renombrar con palabras extranjeras que otorgan a nuestros términos tradicionales un cierto aire de importancia. Tal vez para algunos llamar nube al cloud, inteligencia de negocio al business intelligence o grandes datos al big data, signifique tanto como rebajar su categoría. Sin embargo, cómo decidamos llamarlo no es más que cuestión de modas. Algunos lo calificarían como “the next buzzword” o lo que es lo mismo: la siguiente palabra de moda. Esa palabra que suele tomar tanta importancia que hasta personas que no saben de qué se trata la pronuncian como si formase parte de su vocabulario habitual, pero lo cierto es que el big data o los grandes datos – como se prefiera denominar – no es una moda pasajera.
Estamos tan metidos y habituados ya a un mundo interconectado a través de internet que no nos damos cuenta de la cantidad de datos que generamos. Conversaciones a través de mensajería instantánea, imágenes, vídeos, publicaciones en redes sociales, aplicaciones, páginas web con millones de contenidos en todo tipo de formatos y mucho más. IBM aseguraba que somos capaces de generar 2,5 quintillones de bytes al día. Incluso sus analistas llegaban más lejos, ya que afirmaban que el 90 % de los datos mundiales han sido creados durante los últimos dos años. Por lo tanto, podemos arriesgarnos a decir que el big data no es una moda, es algo que existe incluso antes de que a alguien se le ocurriese pensar en un volumen de datos como el que estamos generando y, por supuesto, es un hecho que no va a desaparecer de un día para otro. El big data está aquí y está claro que va a continuar entre nosotros.
Big data como oportunidad
La percepción inicial es que algunos verán el big data como una oportunidad para hacer negocios, sobre todo si pensamos en fabricantes de software de analítica de datos o propietarios de grandes centros de datos, entre otros.
Lo cierto es que si somos capaces de imaginar tal volumen de datos moviéndose libremente por Internet en todo el mundo, tendremos que ser capaces también de llegar a la conclusión de que esos datos no se van a poder capturar, almacenar, buscar, compartir, analizar ni visualizar con un software de andar por casa. Esto quiere decir que las herramientas tradicionales que se han estado utilizando hasta este momento, de poco sirven ahora y ante el volumen de datos que mueven las empresas en la actualidad.
A día de hoy se puede decir que si una empresa no tiene problemas de cara a la analítica de datos, generalmente, es porque no le está llegando toda la información de su entorno. Solo el volumen de datos que genera esta información relacionada con el entorno de la empresa serviría para crear un problema importante al intentar analizarse con los sistemas tradicionales de analítica. La inversión en nuevos sistemas y tecnologías suelen dar mejores resultados que el mantenimiento de los antiguos, pero sabemos que en nuestro país las empresas solo utilizan el 16 % del presupuesto a innovar, el resto se invierte en mantener sistemas obsoletos que cada vez sirven de menos.
Si una compañía no sabe dónde puede obtener información de su entorno, es bastante probable que podamos decir que no está donde debería estar, y eso no es más que una desventaja frente a otras empresas que sí están en el lugar adecuado.
Este lugar no es un sitio concreto, sino que estamos hablando de redes sociales o de bidireccionalidad entre la empresa y sus clientes, entre otros nuevos métodos de obtener información del entorno. El feedback o la respuesta de los clientes es importante y, en el caso de las grandes compañías, se trata de un volumen ingente de datos que pueden aportar valiosa información para mejorar aspectos de la empresa. Conocer las inquietudes y necesidades de los clientes es estar un paso por delante para poder ofrecerles soluciones, pero para ello, se debe poder analizar en detalle los comentarios de estos clientes. Trabajar en un entorno con la mayor capacidad de generación de datos de nuestra historia requerirá adaptarse a nuevas herramientas y procesos como la utilización de bases de datos no estructuradas que pueden llegar a alcanzar zetabytes de información, pero además requerirán de tratamientos específicos tanto para su almacenamiento como para su visualización.
Sin embargo, algo es seguro en este panorama, si una empresa no está recibiendo la información adecuada de su entorno, está en clara desventaja frente a aquellas que sí la están recibiendo y analizando correctamente. Por lo tanto el big data es una oportunidad no solo para los fabricantes de software de analítica, sino también para grandes compañías que quieran trabajar con este nuevo y desmesurado volumen de datos.
Tipos de datos en el big data
Como ya hemos dicho el big data hace referencia a la acumulación masiva de datos, pero dentro de este volumen podemos definir los datos en tres grandes grupos.
1. Datos estructurados
Los datos estructurados tienen bien definidos tanto su longitud como su formato. En este tipo de datos podemos englobar las fechas, los números o las cadenas de caracteres y suelen almacenarse en tablas.
2. Datos no estructurados
Los datos no estructurados carecen de un formato específico, están almacenados tal y como han sido recolectados y no pueden ordenarse en tablas, ni se puede desgranar su información en tipos más básicos. Los correos electrónicos, los documentos de texto o los PDF’s pertenecen a este tipo de datos.
3. Datos semiestructurados
Estos datos no se limitan a campos determinados pero contienen marcadores para separar los diferentes elementos que los componen. Además, estos datos poseen sus propios metadatos semiestructurados que describen los objetos y las relaciones entre ellos. Hablamos de código HTML, XML o JSON.
¿De dónde vienen los datos?
La inmensa mayoría de los datos que se generan al día los crean las personas desde sus propios terminales móviles. Enviar correos electrónicos, escribir Whatsapp, compartir contenido en Facebook, subir vídeos a Youtube son acciones que se han convertido en cotidianas y, con el tiempo, también han ido introduciéndose en nuestras vidas otras alternativas como Vimeo, Twitter, Line, Telegram o Instagram entre cientos de aplicaciones más. Cada nuevo contenido que creamos, compartimos o enviamos genera datos y metadatos que posteriormente serán analizados. Estos datos son clasificados como datos generados por personas y en este grupo también deberíamos tener en cuenta el uso de sistemas ERP.
Sin embargo, hay más formas de crear datos sin que sean directamente generados por una persona. Por ejemplo, existen las transacciones de datos, es decir, facturación, llamadas o transacciones entre cuentas generan información relevante. La biometría también genera datos. Hace años hablábamos sólo de la huella dactilar por la que estábamos registrados todos en los archivos de la policía o de los cuerpos de seguridad de nuestro país, pero poco a poco la biometría ha ido evolucionando hasta que aquellos escáneres de retina o el reconocimiento por voz, que solo veíamos en las películas, se han convertido en una realidad que también genera y almacena nuevos datos.
Hasta algo tan inocente como navegar por la red genera datos, al menos desde la llegada de la web 2.0 en la que el lector ha dejado de ser un ente pasivo y se ha convertido en un creador de contenido más. Sus opiniones, sus clicks, sus interacciones con determinadas páginas o el tiempo que pasa leyendo un artículo cuentan para predecir comportamientos y analizarlos posteriormente.
¿Qué hacer con los datos?
Ya sabemos de dónde vienen los datos y a través de que plataformas obtenerlos, pero lo que tenemos en realidad son un montón de datos sin relacionar que no nos sirven de nada, por lo que lo primero que hay que hacer con ellos es transformarlos en algo útil para la compañía. Aquí entran en juego plataformas ETL o Extract, Transform and Load, es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos o data warehouse para analizarlos posteriormente.
Una vez los datos están limpios y organizados hay que almacenarlos y para ello se utilizan bases de datos no convencionales o relacionales (NoSQL), estas bases de datos permiten almacenar los datos con mayor flexibilidad y permiten manipularlos de forma más rápida. Dentro de estas bases de datos NoSQL, podemos distinguir cuatro tipos:
- Clave-Valor (Key-Value): son similares a los diccionarios de datos y se accede al dato a través de una clave única. Los datos están aislados entre sí y el sistema no puede interpretarlos. Además este tipo de base no requiere una estructura de datos concreta.
- Documental: aunque son similares a las anteriores, en este caso sí requiere una estructura de datos concreta, tienen cierta organización. Los datos se guardan semiestructurados y pasan a llamarse documentos, estos documentos cuentan con una clave única para acceder a ellos.
- En grafo: rompen completamente la idea de tablas y se convierten en modelos de grafos, donde se establece que la información son los nodos y las relaciones entre la información son las aristas.
- Orientado a columnas: su modelo de datos es definido como un mapa de datos multidimensional y está orientado a almacenar datos con tendencia a escalar horizontalmente. En éste caso podremos almacenar varios atributos y objetos, pero no serán interpretables directamente por el sistema.
Dependiendo de la tecnología de almacenamiento que hayamos utilizado, necesitaremos distintas técnicas para analizar los datos. Por ejemplo, podemos analizarlos por asociación, es decir, encontrando relaciones entre diferentes variables bajo la premisa de causalidad. La minería de datos cuyo objetivo es encontrar comportamientos predictivos, el análisis de textos gracias a los cuales se puede predecir una búsqueda por palabras o el clustering, similar a la minería de datos y que divide grandes grupos en grupos más pequeños de individuos, su objetivo es encontrar similitudes entre estos grupos y encontrar nuevos grupos parecidos gracias a las características que extraen de la muestra.
La utilidad del big data
El big data está presente en diversos sectores laborales y es muy útil en determinadas áreas. Por ejemplo, en el mundo empresarial se obtienen datos de las redes sociales.
La tendencia es la de subir a las redes sociales todas la actividades que realizamos y compartir la de nuestros conocidos, por eso las redes sociales se convierten en un lugar perfecto para que las empresas puedan ver, previamente, cómo es uno de sus candidatos antes incluso de tenerle sentado en frente. Esto permite a las compañías crear una lista de posibles candidatos según el perfil profesional necesario, según los gustos y actividades de los candidatos e incluso, según su cercanía al puesto de trabajo.
Sin embargo, en el mundo empresarial este tipo de información no solo sirve para contratar empleados, sino también para vender y Amazon es especialista en esta técnica conocida como minería de datos. La exploración de datos o minería de datos es un término que se refiere al proceso que intenta descubrir patrones en grandes conjuntos de datos y para llevarlo a cabo se utilizan métodos como la inteligencia artificial, el aprendizaje automático, la estadística o los sistemas de base de datos. De esta forma, los patrones de compra de un usuario se cruzan con los datos de compra de otro y se crean anuncios personalizados y así ofrecerles solo lo que buscan.
También de forma offline se puede aplicar el big data. Los teléfonos móviles de posibles clientes envían peticiones WIFI a todos los puntos con los que se cruzan, de esta forma se puede trazar una ruta dentro de un recinto gracias a la dirección MAC y a sus localizaciones. Esta información es útil para averiguar cuánto tiempo han pasado los clientes en el interior del recinto, qué rutas siguen, dónde se han detenido más tiempo o cuál es la frecuencia de visita, entre otras. Además, la dirección MAC no supone una violación de la intimidad de los clientes puesto que no podemos acceder a otro tipo de datos.
¿Qué nos depara el futuro del big data?
Al ritmo que estamos generando datos lo más probable es que el futuro nos depare un importante problema de almacenamiento y sobreinformación, pero sobre todo multitud de preguntas que hasta ahora están sin resolver: ¿Cómo afectará esto a la intimidad de los usuarios? ¿Los datos que obtenemos son realmente fiables? ¿Dónde almacenaremos tantos datos como los que se generarán?
En realidad no tenemos ni la más remota de idea de en qué acabará el big data, pero lo que es seguro es que de momento es una realidad tanto para usuarios como para empresas y que aún estamos a tiempo de sacarle rentabilidad.