Surgen de las necesidades de almacenar información con los sistemas tradicionales y ante una realidad como el big data. Se trata de un grupo de datos orientados a un determinado ámbito que ayudan a la toma de decisiones en la organización en la que se utiliza. Es lo que llamaríamos un almacén de datos.
La función principal de un data warehouse es la de contener los datos necesarios o útiles para una organización y así poder utilizarlos en un futuro para extraer información ventajosa para la compañía y sus clientes. De esta forma, en estos almacenes los datos están organizados en una base especialmente diseñada para favorecer su análisis y solo se entregará la información a la persona indicada en el momento óptimo y en el formato adecuado utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de Información Ejecutiva (EIS) o herramientas para hacer consultas o informes.
Los datos que se almacenan en un data warehouse provienen de bases de datos distribuidas por los diferentes departamentos de la organización y que, posiblemente, tengan diferentes estructuras por lo que se debe facilitar una descripción global y un análisis comprensivo de estos datos, a este proceso se le conoce como integración. Por otra parte, en este tipo de almacenes de datos hay que hacer una separación entre los datos de uso diario y los datos que se utilizan para propósitos de divulgación, de ayuda en la toma de decisiones, para el análisis y para operaciones de control. Estos tipos de datos no deben coincidir en en la misma base ya que sirven a objetivos diferentes y podrían entorpecerse entre sí. Periódicamente, se importan datos al almacén de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformación posterior. Es práctica común normalizar los datos antes de combinarlos en el almacén mediante herramientas de extracción, transformación y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el almacén.
La ventaja principal de este tipo de sistemas se basa en su concepto fundamental de estructurar la información, es decir, almacenamiento de información homogénea en una estructura basada en la consulta y el tratamiento jerarquizado de esta. Bill Inmon aseguraba que un data warehouse debía de cumplir su función de integración, es decir, los datos almacenados en este tipo de sistemas debían integrarse en una estructura consistente y estructurarse según las necesidades de los usuarios. Debía ser temático, por lo que los datos debían estar organizados por temas para facilitar su acceso y entendimiento, pero también no volátil, es decir, la información no puede ser modificada y es permanente. Además de todo esto, el data warehouse tiene una última característica que está directamente vinculada al tiempo, y es que los datos almacenados en este tipo de sistema sirven para poder realizar análisis de tendencias a lo largo de la historia de la compañía. Es por este motivo por el que Bill Inmon también aseguraba que este tipo de sistemas tenían una función histórica.
En definitiva, estos almacenes proporcionan varias ventajas como la de facilitar el acceso a una amplia variedad de datos, sirven para configurar informes de tendencia y se han convertido en una herramienta imprescindible para la toma de decisiones.