Los datos son el nuevo campo de batalla. Para las empresas la situación es clara: su futuro depende de cuán rápida y eficientemente puedan convertir los datos en información precisa para poder tomar decisiones informadas. Este desafío ha ejercido una gran presión sobre los CIO para que no solo administren volúmenes, fuentes y tipos de datos cada vez más grandes, sino también para que admitan a más y más usuarios de datos, así como casos de uso nuevos y cada vez más complejos.
Afortunadamente, los CIO pueden buscar apoyo ante está difícil situación desde niveles sin precedentes de innovación tecnológica. Nuevas plataformas en la nube, nuevas bases de datos como Apache Hadoop y procesamiento de datos en tiempo real son solo algunas de las tecnologías de datos modernas a su disposición. Sin embargo, la innovación se está desarrollando tan rápido y los cambios son tan profundos que es imposible para la mayoría de las empresas mantener el ritmo, y mucho menos aprovechar esos factores para obtener una ventaja competitiva.
Está claro que las infraestructuras de datos de hoy en día no pueden ser estáticas, sí van a seguir el ritmo de los requisitos de datos del negocio. El entorno competitivo actual requiere infraestructuras adaptables y escalables capaces de resolver los desafíos de hoy y abordar las necesidades del mañana; después de todo, la velocidad con la que se procesan y analizan los datos puede ser la diferencia entre ganar y perder al próximo cliente. Esto es mucho más importante hoy que hace 10 o 15 años, ya que las compañías solían elegir una base de datos estratégica una vez y seguir funcionando con ella durante una década o dos. Ahora vemos que las compañías actualizan sus opciones de plataforma de datos con mucha más frecuencia para mantenerse al día.
Si las empresas prosperan en una economía basada en datos, no pueden permitirse el lujo de estar esposadas a tecnologías «antiguas»; necesitan la flexibilidad y la agilidad para moverse en cualquier momento ante las últimas innovaciones del mercado. Sin embargo, no es suficiente que las empresas simplemente sean agnósticas en cuanto a tecnología; también necesitan estar en condiciones de reutilizar proyectos de datos, transformaciones y rutinas a medida que se mueven entre plataformas y tecnologías.
¿Cómo puede su empresa cumplir con el imperativo de la agilidad? Para comenzar, consideremos la cuestión de la nube.
Múltiples nubes y plataformas
En una empresa basada en datos, las necesidades de todos, desde desarrolladores y analistas de datos hasta usuarios comerciales no técnicos, deben considerarse al seleccionar soluciones IaaS. Por ejemplo, los desarrolladores de aplicaciones que usan herramientas tales como Microsoft Visual Studio y .NET probablemente tendrán preferencia por las eficiencias de integración de Microsoft Azure.
Los científicos de datos pueden aprovechar Google Cloud Platform para la capacidad avanzada de aprendizaje automático que admite, mientras que otros miembros del equipo pueden preferir la oferta de AWS. En un mundo descentralizado donde es fácil generar soluciones en la nube, los diferentes grupos a menudo tomarán decisiones independientes que tengan sentido para ellos. Luego, el equipo de TI se enfrenta a la tarea de administrar los problemas heredados en el actual mundo de múltiples nubes, problemas que a menudo crecen más de lo que esperaban los equipos iniciales.
Una forma de satisfacer las diversas necesidades de las partes interesadas y adoptar la última tecnología es planificar un entorno multi-nube por diseño, creando una arquitectura de datos moderna que sea capaz de servir al rango más amplio posible de usuarios. Este enfoque puede salvaguardarlo de la dependencia de los proveedores y, lo que es más importante, garantizar que no se bloqueará el aprovechamiento de las fortalezas únicas y las innovaciones futuras de cada proveedor de la nube a medida que continúen evolucionando a un ritmo vertiginoso en los próximos años.
Un enfoque de integración para agilizar los datos
Quizás una vez considerada una herramienta táctica, hoy la solución de integración correcta es un componente esencial y estratégico de una arquitectura de datos moderna, lo que ayuda a optimizar y maximizar el uso de datos en todo el negocio. Su elección de software de integración de datos no solo debe admitir el procesamiento de datos «en cualquier lugar» (en implementaciones multicliente, in situ e híbridas) sino que también le permite adoptar las últimas innovaciones tecnológicas y la creciente gama de casos de uso de datos y usuarios que una empresa necesita servir.
Codificación manual
Dije «software de integración de datos», ya que simplemente no creo que una arquitectura de datos moderna pueda ser respaldada solo por la integración manual. Si bien el código personalizado puede tener sentido para proyectos simples y específicos que no requieren mucho mantenimiento, no es sostenible para toda una estrategia moderna de arquitectura de datos.
La codificación manual simplemente requiere mucho tiempo y es costosa, ya que requiere especialistas bien pagados y altos costes de mantenimiento continuo. Además, los proyectos codificados a mano están vinculados a la plataforma específica a la que fueron codificados, y a menudo incluso a una versión particular de esa plataforma, que luego bloquea la solución a ese proveedor y la instantánea tecnológica. En un entorno tecnológico que se acelera constantemente, esa es una opción estratégica desastrosa. Además, la codificación manual requiere que los desarrolladores realicen cada cambio, lo que limita la capacidad de la organización para resolver las necesidades variadas y cambiantes de un grupo de consumidores de datos ampliamente distribuido. Y, por último, no puede aprovechar los metadatos para abordar la seguridad, el cumplimiento y la reutilización.
Herramientas tradicionales de ETL
Las herramientas ETL tradicionales son una mejora con respecto a la codificación manual, lo que le brinda la capacidad de ser independiente de la plataforma, utilizar recursos menos calificados y reducir los costos de mantenimiento. Sin embargo, la principal desventaja de las herramientas ETL tradicionales es que requieren motores propietarios en tiempo de ejecución que limitan a los usuarios al rendimiento, la escala y el conjunto de características que los motores fueron diseñados inicialmente para abordar.
Casi invariablemente no pueden procesar datos de transmisión en tiempo real, y no pueden aprovechar toda la potencia y la escala de procesamiento nativo de las plataformas de datos de próxima generación, que tienen enormes cantidades de inversión en toda la industria que mejoran continuamente sus capacidades. Después de todo, no se trata solo de tener la flexibilidad para conectarse a una gama de plataformas y tecnologías: la clave es aprovechar lo mejor que cada uno tiene para ofrecer. Además, las tecnologías propietarias de tiempo de ejecución generalmente requieren que el software se implemente en cada nodo, lo que aumenta drásticamente la implementación y la complejidad de administración continua.
Es importante destacar que este requisito de software privativo también hace que sea imposible aprovechar las capacidades de aceleración y desactivación de la nube, que es fundamental para realizar los beneficios potenciales de elasticidad, agilidad y ahorro de costes de la nube. Las herramientas ETL tradicionales simplemente no pueden seguir el ritmo de la innovación comercial o de mercado y, por lo tanto, evitan, en lugar de permitir el éxito del negocio digital.
Una estructura de datos ágil
Lo que se necesita para la era digital es un software de integración escalable creado para entornos de datos modernos, usuarios, estilos y flujos de trabajo, desde flujos de datos por lote y por lotes hasta IoT y capacidades en tiempo real, en otras palabras, un tejido de datos ágil.
El software debería poder integrar datos de la nube y ejecutarlos tanto en la nube como en las instalaciones. Para satisfacer la creciente necesidad empresarial de agilidad y adaptabilidad de datos, el software de integración debe optimizarse para trabajar de forma nativa en todas las plataformas y ofrecer un conjunto unificado y coherente de capacidades de integración (es decir, integración de datos y aplicaciones, gestión de metadatos, gobernanza y calidad de datos). Esto permitirá que las organizaciones permanezcan independientes de la plataforma y, sin embargo, estén en condiciones de aprovechar al máximo las capacidades nativas de cada plataforma (en la nube u otras) y la tecnología de datos. Todo el trabajo ejecutado para una tecnología debe ser fácilmente transferible a la siguiente, proporcionando a la organización economías de escala y habilidades.
La otra capacidad crítica que se debe buscar en una estructura de datos ágil es la administración de datos de autoservicio. Pasar de un modelo de administración de datos descentralizado y controlado por el sistema central a uno totalmente distribuido es la única forma de acelerar y escalar la información confiable de toda la organización. Si los datos son para informar las decisiones de toda su organización, entonces los profesionales de TI, los analistas de datos y la línea de negocio deben ser participantes activos y estrechamente coordinados en la integración, preparación, análisis y administración de datos. Por supuesto, la transición al autoservicio puede generar caos si no se acompaña de controles apropiados, por lo que estas capacidades deben estar estrechamente unidas a las funciones de gobierno de datos que proporcionan controles para empoderar a los tomadores de decisiones sin poner en riesgo los datos y socavar el cumplimiento.
El desafío al que se enfrentan los CIO hoy en día es difícil: con las plataformas y la tecnología que avanzan rápidamente, y con más fuentes de conexión y soporte para los usuarios que nunca. Satisfacer estas demandas de datos nuevas y en constante evolución requiere que las empresas creen una infraestructura de datos lo suficientemente ágil como para mantenerse al día con el mercado y las necesidades de la organización.
Álvaro Palencia
Responsable comercial de Talend para Iberia