Los cinco retos a los que las organizaciones se enfrentan para sacar el máximo provecho del big data se combinan para impulsar la evolución más significativa en Enterprise Analytical Architecture desde que las organizaciones lanzaron Enterprise Data Warehouse. Teradata, la compañía líder en plataformas, aplicaciones de marketing y servicios de análisis de datos, explicaba de esta manera la evolución empresarial que está impulsando el big data.
En la actualidad, aunque el almacenamiento de datos sigue siendo algo necesario, ya no es suficiente por sí solo. Cuando los datos son utilizados varias veces, es necesario minimizar el coste total de propiedad, amortizando el coste por adquisición e integración a través de múltiples procesos de negocio. Esto se consigue proporcionando varias aplicaciones de análisis para una de las copias de datos, en lugar de al revés. Cuando los datos respaldan procesos de negocio cruciales es necesario que sean precisos, fiables y certificados y una copia siempre será mejor que dos.
Por otro lado, para optimizar completamente los procesos de negocio es necesario integrar los datos para apoyar los análisis multifuncionales. Esto es indispensable si se quiere poner en marcha un análisis de información procesable de la compañía al completo y a través de fronteras funcionales, organizativas y geográficas.
“Dado que implementar un Data Warehouse Integrado sigue siendo la forma más racional de analizar una compañía, cabe afirmar que los rumores de su desaparición son exagerados. Además, dado que las plataformas de RDBMS paralelas siguen siendo las únicas tecnologías con probada escalabilidad para soportar una compleja mezcla de cargas de trabajo, siguen siendo la única opción en lo que se refiere a ofrecer múltiples aplicaciones analíticas para hacer una copia de los activos de datos estructurados de la empresa”, afirmaba Martin Willcox, director product and solutions marketing, international, de Teradata Corporation.
Por otra parte, Gartner, ha acuñado el término “Logical Data Warehouse” para describir la evolución desde lo que se podría denominar como arquitectura “monolítica” a un Data Warehouse más distribuido. “Independientemente de cómo llamemos a esta evolución, en Teradata la denominamos “Unified Data Architecture. Con el tiempo se incrementará la necesidad de usar e integrar múltiples plataformas de análisis, cada una de ellas optimizada para conseguir diferentes combinaciones de los 5 retos de big data”, explicaba Willcox.
Estos 5 retos están trayendo consigo importantes consecuencias para la arquitectura analítica empresarial.
Los 5 retos
– Los datos multi-estructurados: como consecuencia de esta realidad, hoy en día hay que ser capaz de gestionar de forma relacional los datos multi-estructurados y combinar enfoques “schema on-load” y “schema on-read”, lo que hace que esas estrategias de gestión de información que “sirven para todo” sean cada vez menos rentables.
– Las analíticas interactivas: el aumento de nuevos modelos generalistas de programación paralela como MapReduce y Bulk Synchronous Parallel (BSP) para usos intensivos de CPU significa que no hay soluciones milagrosas para Big Data Analytics.
– El almacenaje de datos con ruido: gran parte de los esfuerzos de la industria están orientado a minimizar los costes de almacenaje, sabiendo que el coste unitario de almacenaje es igual al coste unitario de procesamiento, que a su vez es igual al coste total de propiedad.
– Ofrecer un verdadero valor de negocio: el objetivo de un proyecto Big Data no es aumentar los conocimientos empresariales, sino cambiar la forma en la que se hacen los negocios compartiendo esos conocimientos con todos los estamentos de la empresa y cambiando los procesos de negocio.
– El reto de “puede haber una aguja en un pajar pero si se necesitan doce meses y 500.000 € para averiguarlo no hay tiempo ni dinero para investigarlo”: si se lleva a cabo una búsqueda de “exploración & descubrimiento” de la misma forma que se hace con el BI tradicional, se está haciendo mal. Es fundamental cerciorarse de que la adquisición será ágil para ir alineado con el desarrollo rápido y el despliegue de aplicaciones.
Estos desafíos del big data hacen que cada vez sea más necesario que se aumente el almacenamiento de datos con nuevas arquitecturas que, en muchos casos, están mejor implementadas en nuevas tecnologías. Una “plataforma de datos” o “data-lake”, por ejemplo, permite a las compañías abordar el reto económico de capturar grandes conjuntos de datos con ruido al estar desarrollada sobre una tecnología con un coste unitario de almacenamiento más bajo que la plataforma de almacenamiento de datos, que está diseñada y optimizada para compartir datos de forma más eficiente.
Asimismo, las tecnologías de sistemas de ficheros distribuidos probablemente sean un ajuste más natural para capturar datos multi-estructurados complejos que un sistema de bases de datos relacionales (Relational Database Management System – RDBMS). Por otro lado, las tecnologías diseñadas desde cero para apoyar analíticas interactivas ofrecen una gran facilidad de uso y ventajas de rendimiento para analíticas complejas de interacción de datos modelados.
“Algunos analistas aseguran que esta situación no favorecerá a la compañía ya que creen que solo somos líderes cuando el Data Warehouse integrado es lo que prima en el mercado. Esto no es cierto por dos razones. La primera es que es erróneo presuponer que el patrón de la arquitectura de Integrated Data Warehouse desaparecerá, ya que como estamos viendo, las nuevas tecnologías y arquitecturas están extendiéndose, no reemplazándose. En segundo lugar, este argumento ignora el hecho de que Teradata también lidera la adaptación de la industria a la realidad de las tres nuevas olas del big data con nuevas plataformas y tecnologías integradas que permiten a empresas líder desarrollar arquitecturas Logical Data Warehouse. En resumen, me atrevo a asegurar que Teradata «recorre el camino» mientras que nuestros competidores simplemente predican con el ejemplo”, afirmaba Willcox.