viernes, diciembre 5, 2025
DirectorTIC
  • INICIO
  • ENTREVISTAS
  • DEBATES
    • ALMUERZO EJECUTIVO: La IA aplicada a los procesos de negocio 2025
    • DEBATE: Centro de datos 2025
    • ALMUERZO EJECUTIVO: Claves para la transformación digital desde la observabilidad 2025
    • ALMUERZO EJECUTIVO: Formación y gobernanza del dato, antídotos frente al “caballo desbocado” de la IA 2025
    • ALMUERZO EJECUTIVO: IA generativa, redefiniendo el puesto de trabajo 2025
    • DEBATE: Data Driven/gestión dato 2025
    • COLOQUIO: Estrategias para afrontar los nuevos desafíos tecnológicos del sector sanitario 2025
    • DEBATE: Conectividad 2025
    • DEBATE: Gestión del dato 2024
    • ALMUERZO EJECUTIVO: La observabilidad es necesaria 2024
    • COLOQUIO: Industria 4.0 2024
    • DEBATE: Seguridad en el endpoint 2024
  • GUIAS
    • Guía de ciberseguridad 2023
    • Guía de ciberseguridad 2022
    • Guía de ciberseguridad 2021
    • Guía de la transformación digital 2021
  • ESPECIALES
    • ¿Quiere saber cómo conseguir una optimización de costes real?
    • Especial IA 2024: un futuro brillante pleno de desafíos
  • Entorno TIC
  • NOTICIAS
  • REPORTAJES
  • CIO
    • Talleres del CIO
    • Consejos para el CIO
    • Videos
  • FORO TAI
    • FORO TAI Galicia: el reto de la “calidade” tecnológica
    • FORO TAI innovacion-disruptiva
  • SUSCRIPCIONES
No Result
View All Result
DirectorTIC
  • INICIO
  • ENTREVISTAS
  • DEBATES
    • ALMUERZO EJECUTIVO: La IA aplicada a los procesos de negocio 2025
    • DEBATE: Centro de datos 2025
    • ALMUERZO EJECUTIVO: Claves para la transformación digital desde la observabilidad 2025
    • ALMUERZO EJECUTIVO: Formación y gobernanza del dato, antídotos frente al “caballo desbocado” de la IA 2025
    • ALMUERZO EJECUTIVO: IA generativa, redefiniendo el puesto de trabajo 2025
    • DEBATE: Data Driven/gestión dato 2025
    • COLOQUIO: Estrategias para afrontar los nuevos desafíos tecnológicos del sector sanitario 2025
    • DEBATE: Conectividad 2025
    • DEBATE: Gestión del dato 2024
    • ALMUERZO EJECUTIVO: La observabilidad es necesaria 2024
    • COLOQUIO: Industria 4.0 2024
    • DEBATE: Seguridad en el endpoint 2024
  • GUIAS
    • Guía de ciberseguridad 2023
    • Guía de ciberseguridad 2022
    • Guía de ciberseguridad 2021
    • Guía de la transformación digital 2021
  • ESPECIALES
    • ¿Quiere saber cómo conseguir una optimización de costes real?
    • Especial IA 2024: un futuro brillante pleno de desafíos
  • Entorno TIC
  • NOTICIAS
  • REPORTAJES
  • CIO
    • Talleres del CIO
    • Consejos para el CIO
    • Videos
  • FORO TAI
    • FORO TAI Galicia: el reto de la “calidade” tecnológica
    • FORO TAI innovacion-disruptiva
  • SUSCRIPCIONES
No Result
View All Result
DirectorTIC
No Result
View All Result
Inicio Noticias

Superando desafíos en el plano del big data con lagos de datos

Inma ElizaldePor: Inma Elizalde
18 marzo, 2020
big-dara-directortic-madrid-españa
Compartir en TwitterCompartir en Linkedin

Cuando Jeff Bezos preparaba pedidos en su garaje y llevaba él mismo los paquetes a la oficina de correos, calcular las cifras de costes, hacer un seguimiento de las existencias y prever la demanda futura era relativamente sencillo. 25 años más tarde el negocio de distribución minorista de Amazon registra más de 175 Fulfillment Centers (FC) en todo el mundo, con más de 250.000 empleados a tiempo completo que envían millones de artículos al día. El equipo de operaciones financieras mundiales de Amazon tiene la increíble labor por delante de rastrear todos esos datos (que se miden en petabytes).

Por eso, en 2019, se les ocurrió una idea: construir un lago de datos que pudiera dar soporte a una de las mayores redes logísticas del planeta. Más adelante pasaría a denominarse internamente lago de datos Galaxy. Este vio la luz en 2019 y ahora todos los diversos equipos están trabajando para transferirle sus datos.

Los desafíos del big data

Los desafíos a los que se ha enfrentado Amazon con el big data son similares a los que encaran muchas otras empresas: datos compartimentados, dificultad para analizar diversos conjuntos de datos, control sobre los mismos, seguridad e incorporación del aprendizaje automático. Echemos un vistazo más en profundidad a estos desafíos y veamos cómo un lago de datos puede ayudar a resolverlos.

Dejar atrás la compartimentación

Una de las principales razones por las que las empresas deciden crear lagos de datos es para acabar con la compartimentación. El hecho de tener conjuntos de datos en diferentes lugares, controlados por diferentes grupos, los oscurece por defecto. Esto suele pasar cuando una empresa crece rápidamente y/o adquiere nuevos negocios. En el caso de Amazon, fue por ambas cosas.

Analizar diversos conjuntos de datos big-data-2.directortic-madrid-españa

Otro problema que plantea la utilización de diferentes sistemas y enfoques a la gestión de datos es que las estructuras de los datos y la información varían. Si se quisieran combinar todos estos datos en un almacén de datos tradicional sin un lago de datos, sería necesario un gran esfuerzo de preparación de datos y exportación, transformación y carga.

Los lagos de datos permiten importar cualquier cantidad de datos en cualquier formato porque no hay un esquema predefinido. Incluso puedes incluir datos en tiempo real. Mover todos los datos a un lago de datos también mejora las posibilidades frente a un almacén de datos tradicional. Tenemos flexibilidad para almacenar datos muy estructurados, datos a los que se accede con frecuencia en un almacén de datos, y al mismo tiempo mantener hasta exabytes de datos estructurados, semiestructurados y no estructurados en nuestro lago de almacenamiento.

Gestionar el acceso a los datos

Con datos almacenados en tantos lugares, es difícil tanto acceder a todos ellos como vincularlos a herramientas externas para su análisis. Los datos financieros de las operaciones de Amazon se encuentran repartidos en más de 25 bases de datos, con equipos regionales que crean su propia versión local de los conjuntos. Eso implica más de 25 credenciales de gestión de acceso para algunas personas. Muchas de las bases de datos requieren soporte de gestión de acceso para realizar acciones como modificar perfiles o restablecer contraseñas.

Con un lago de datos, es más fácil hacer llegar los datos correctos a las personas adecuadas en el momento preciso. En lugar de gestionar el acceso a todas las diferentes ubicaciones en las que se almacenan datos, solo hay que preocuparse de un conjunto de credenciales. Los lagos de datos tienen controles que permiten a los usuarios autorizados ver, acceder, procesar y/o modificar activos específicos. Los lagos de datos ayudan a garantizar que los usuarios no autorizados no puedan realizar acciones que comprometan la confidencialidad y la seguridad de los datos.

Acelerar el aprendizaje automático

Un lago de datos es una base poderosa para el aprendizaje automático y la inteligencia artificial, porque ambos prosperan en grandes y diversos conjuntos de datos. El aprendizaje automático utiliza algoritmos estadísticos que aprenden de los datos existentes, un proceso denominado «entrenamiento», para tomar decisiones sobre nuevos datos, un proceso llamado «inferencia». Durante el entrenamiento, se identifican los patrones y las relaciones en los datos para crear un modelo. El modelo nos permite tomar decisiones inteligentes sobre datos a los que se enfrenta por primera vez.

El año pasado, el equipo de finanzas de operaciones de Amazon hizo una prueba. Seleccionaron un subconjunto de sus previsiones y compararon su proceso manual tradicional con Amazon Forecast, un servicio totalmente gestionado que recurre al aprendizaje automático para ofrecer pronósticos muy precisos. En este ensayo, las previsiones completadas por Forecast fueron, de media, un 67% más precisas que las realizadas por el proceso manual.

Usar las herramientas adecuadas: Galaxy en AWS

El negocio de distribución minorista de Amazon utiliza cierta tecnología anterior a la creación de Amazon Web Services (AWS), que vio la luz en 2006. Para ser más escalables, eficientes, eficaces y seguras, muchas cargas de trabajo en el negocio de distribución minorista de Amazon se han trasladado a AWS en la última década. El lago de datos Galaxy está construido sobre el Servicio de almacenamiento simple de Amazon (Amazon Simple Storage Service o Amazon S3), un servicio de almacenamiento de objetos que ofrece una disponibilidad, durabilidad y adaptabilidad inigualables.

AWS Glue, un servicio de ETL completamente gestionado que facilita la preparación y carga de datos para su análisis, y el Servicio de migración de bases de datos AWS (AWS DMS) se utilizan para integrar los diversos conjuntos de datos en Amazon S3. Galaxy combina activos de metadatos de múltiples servicios, incluidos Amazon Redshift, Amazon RDS, y el Catálogo de datos de AWS Glue, en una capa de catálogo unificada construida sobre Amazon DynamoDB, una base de datos de valores clave y documentos.

Una vez que los datos han sido catalogados, se utilizan varios servicios en la capa de clientes. Por ejemplo, Amazonas Athena, un servicio de consulta interactivo para consultas de exploración específicas que utilizan el estándar SQL; Amazon Redshift, un servicio para consultas e informes más estructurados; y Amazon SageMaker, para el aprendizaje automático.

AWS Lake Formation

En agosto de 2019, AWS lanzó AWS Lake Formation para ayudar a los clientes a recopilar y catalogar datos de las bases de datos y el almacenamiento de objetos, trasladar los datos al nuevo lago de datos Amazon S3, limpiar y clasificar los datos mediante algoritmos de aprendizaje automático y garantizar el acceso a los datos sensibles.

Al almacenar los datos en un repositorio unificado en formatos basados en estándares abiertos, los lagos de datos nos permiten superar la compartimentación, utilizar una amplia gama de servicios analíticos para obtener la mayor cantidad de información de los datos que conservamos y aumentar de manera rentable las necesidades de almacenamiento y procesamiento de datos a lo largo del tiempo.

Werner Vogels

CTO, Amazon.com

 

Etiquetas: AWSbig datalagos de datos

DESTACADOS

DESTACADO

Palo Alto Networks, la seguridad que nos guía
Sin categoría

Palo Alto Networks, la seguridad que nos guía

18 octubre, 2023

¿Quiere descubrir cómo sortear los peligros y mantener su organización a salvo? Con Palo Alto Networks descubrirá, a través de...

Leer másDetails

DESTACADOS

No Content Available
Ismael Pastor-Lessthan3-Directortic
Entorno TIC

La nube de AWS permite ahorros de entre el 30 y el 70 %

1 diciembre, 2025

La nube se ha convertido en un elemento clave para potenciar a compañías de todos los tamaños y Amazon Web...

Leer másDetails
No Content Available
Destacado

Claves para la transformación digital desde la observabilidad

13 noviembre, 2025

La observabilidad se ha convertido en un pilar estratégico para gestionar entornos digitales con eficacia, seguridad y agilidad. Va más...

Leer másDetails
F5 o cómo conectar, proteger y optimizar aplicaciones en diferentes entornos
Destacado

F5 o cómo conectar, proteger y optimizar aplicaciones en diferentes entornos

22 mayo, 2025

En un mundo digital cada vez más distribuido, donde las aplicaciones son el corazón de los negocios, F5 conecta, protege...

Leer másDetails
Entorno TIC

Acronis o la ciberresiliencia a medida para las organizaciones

28 octubre, 2025

El último informe publicado por Acronis revela que España está liderando las tasas de detección de malware, que el ransomware...

Leer másDetails
El CIO jugará un papel importante en la empresa agéntica, de la mano de Salesforce
Sin categoría

El CIO jugará un papel importante en la empresa agéntica, de la mano de Salesforce

4 diciembre, 2025

Salesforce decidió hace un año sumergirse en el concepto de empresa agéntica con su plataforma Agentforce, una plataforma de agentes...

Leer másDetails
Omega Peripherals rompe estándares en la construcción del nuevo CPD de Banco Sabadell
Sin categoría

Omega Peripherals rompe estándares en la construcción del nuevo CPD de Banco Sabadell

13 noviembre, 2025

El nuevo centro de datos de respaldo del Banco Sabadell, en Madrid, llevado a cabo en colaboración con Omega Peripherals,...

Leer másDetails
Cisco redefine el futuro digital con una estrategia centrada en la inteligencia artificial 
Reportajes

Cisco redefine el futuro digital con una estrategia centrada en la inteligencia artificial 

30 octubre, 2025

El estadio Santiago Bernabéu fue el escenario elegido por Cisco para celebrar “Powering Your Business in the AI Era”, un...

Leer másDetails
el caballo desbocado de la IA-Directortic
Debates

Formación y gobernanza del dato, antídotos frente al “caballo desbocado” de la IA

29 octubre, 2025

En plena expansión de la inteligencia artificial generativa, compañías como Betapack, Airlan, Grupo Venanpri, FAES Farma, Intertek, ITP Aero y...

Leer másDetails
Siguiente noticia
firma electrónica - Director TIC- Madrid - España

Firmar electrónicamente es gratis con Validated ID hasta el 30 de abril

SOBRE NOSOTROS

DirectorTic es una publicación de T.a.i. Editorial con información de valor para la toma de decisiones del C-Level de mediana y gran empresa

Contáctanos: correo@taieditorial.es

SÍGUENOS EN:

T.a.i. Editorial S.A. ®, marca registrada 2023 | Aviso Legal | Política de Privacidad | Política de Cookies | Anúnciese aquí

No Result
View All Result
  • INICIO
  • ENTREVISTAS
  • DEBATES
    • ALMUERZO EJECUTIVO: La IA aplicada a los procesos de negocio 2025
    • DEBATE: Centro de datos 2025
    • ALMUERZO EJECUTIVO: Claves para la transformación digital desde la observabilidad 2025
    • ALMUERZO EJECUTIVO: Formación y gobernanza del dato, antídotos frente al “caballo desbocado” de la IA 2025
    • ALMUERZO EJECUTIVO: IA generativa, redefiniendo el puesto de trabajo 2025
    • DEBATE: Data Driven/gestión dato 2025
    • COLOQUIO: Estrategias para afrontar los nuevos desafíos tecnológicos del sector sanitario 2025
    • DEBATE: Conectividad 2025
    • DEBATE: Gestión del dato 2024
    • ALMUERZO EJECUTIVO: La observabilidad es necesaria 2024
    • COLOQUIO: Industria 4.0 2024
    • DEBATE: Seguridad en el endpoint 2024
  • GUIAS
    • Guía de ciberseguridad 2023
    • Guía de ciberseguridad 2022
    • Guía de ciberseguridad 2021
    • Guía de la transformación digital 2021
  • ESPECIALES
    • ¿Quiere saber cómo conseguir una optimización de costes real?
    • Especial IA 2024: un futuro brillante pleno de desafíos
  • Entorno TIC
  • NOTICIAS
  • REPORTAJES
  • CIO
    • Talleres del CIO
    • Consejos para el CIO
    • Videos
  • FORO TAI
    • FORO TAI Galicia: el reto de la “calidade” tecnológica
    • FORO TAI innovacion-disruptiva
  • SUSCRIPCIONES

T.a.i. Editorial S.A. ®, marca registrada 2023 | Aviso Legal | Política de Privacidad | Política de Cookies | Anúnciese aquí

Este sitio web almacena cookies técnicas esenciales para el buen funcionamiento de la página. Estas cookies sirven para mejorar nuestro sitio web y poder ofrecer su funcionalidad completa. No utilizamos cookies de seguimiento para publicidad, ni para redes sociales, ya que cuando comparte información con una red social, será al entrar en ésta cuando le pidan el consentimiento a esas cookies. Para conocer más acerca de las cookies que utilizamos, pulse en Política de cookies. Puede visitar nuestra política de privacidad para saber más sobre el tratamiento de sus datos Política de privacidad. Pulse en aceptar, para minimizar