¿Qué es Data Warehouse? ¿Qué relación tiene con Data Mart?

que es data warehouse

Tiempo de lectura: 9 minutos

Para empezar, vamos a ver de manera muy general qué es un Data Warehouse. Es el fundamento de una empresa data driven. Sin embargo, su administración es a veces compleja y la recopilación de datos requiere mucho tiempo. Por lo cual, para que los usuarios del negocio puedan acceder a los datos de una forma sencilla y orientada al análisis, necesitamos un Data Mart.

Un Data Mart es una forma sencilla de un Data Warehouse (almacén de datos) que se centra en un único tema o área funcional, como Ventas o Finanzas o Marketing. Por esto, se conoce a menudo como base de datos departamental.






New Call-to-action





¿Qué es un Data Warehouse?

Antes de empezar a conocer los Data Mart, hay que tener claro lo que es un Data Warehouse. Un Data Warehouse, o almacén de datos, es un repositorio de datos integrados desde una o varias fuentes heterogéneas, como: soluciones ERP o CRM, desde SDK o aplicaciones, o incluso datos de sensores o de dispositivos de Internet de las Cosas. Un Data Warehouse puede contener datos históricos o en tiempo real, que se explotan con la finalidad de realizar análisis y producir informes.

Un Data Warehouse se construye generalmente con un proceso ETL (Extract, Transform, Load), mediante el cual los datos se extraen de las fuentes, se transforman en el formato deseado y se cargan en el almacén. Mediante ETL, los datos heterogéneos se vuelven homogéneos.

Un Data Warehouse tiene cuatro características clave:

  1. Contiene datos orientados a temas relacionados con el negocio.
  2. Integra datos desde múltiples fuentes, a través de una herramienta ETL.
  3. Nos ayuda a analizar los cambios a lo largo del tiempo, desde una perspectiva histórica.
  4. No es volátil, por lo cual, una vez que los datos son cargados, no cambian.

Un Data Warehouse nos permite realizar operaciones tan valiosas como: obtener información sobre nuestros KPI’s, crear informes comerciales y utilizar algoritmos avanzados de aprendizaje automático para predecir eventos futuros.

¿Qué es un Data Mart?

Un Data Mart no es otra cosa que un subconjunto de un Data Warehouse, diseñado para satisfacer la necesidad de un determinado grupo de usuarios, ya que, a menudo, es creado y controlado por un único departamento dentro de una organización.

Dado su enfoque monotemático, un Data Mart suele extraer los datos de una fuente determinada, habitualmente del Data Warehouse central. Por el contrario, un Data Warehouse reúne datos de múltiples sistemas de origen y abarca distintas áreas temáticas.

6 diferencias entre un Data Mart y un Data Warehouse

Más allá de la definición teórica, existen cinco características principales que distinguen un Data Mart de un Data Warehouse:

  1. Alcance: un Data Warehouse tiene un alcance corporativo, mientras que el Data Mart está enfocado en una línea de negocio concreta.
  2. Uso: un Data Warehouse es utilizado como soporte para decisiones estratégicas, un Data Mart apoya a decisiones tácticas.
  3. Áreas temáticas: mientras que el Data Warehouse abarca distintas áreas, el Data Mart se centra en un solo tema.
  4. Fuentes de datos: un Data Mart se alimenta de pocas fuentes de datos, a diferencias de un Data Warehouse, cuyas fuentes son mucho más numerosas.
  5. Tamaño: un Data Mart puede medir del orden de los centenares de gibabyte, mientras que un Data Warehouse puede superar el terabyte.
  6. Tiempo de implementación: la implementación de un Data Warehouse es un proceso largo que puede tardar varios meses o años, mientras que para un Data Mart estos tiempos se reducen en algunos meses.

Tipos de Data Mart

Existen tres tipos de Data Mart. La principal diferencia entre ellos está en como se alimentan, es decir, como se obtienen datos de las fuentes y como se insertan en el Data Mart.

  • Así, un Data Mart dependiente se construye a partir de un Data Warehouse central, identificando un subconjunto adecuado de datos y moviendo una copia del mismo, a menudo en forma resumida. Esto permite lograr un mejor rendimiento ya que se trata de datos que han sido sometidos anteriormente a un proceso ETL. Además, se incrementa la seguridad, al tener cada departamento el control sobre sus datos, y la eficiencia en el seguimiento de KPI. Este caso se conoce como enfoque Top Down.
  • Por otro lado, un Data Mart independiente se crea a partir de fuentes externas, sin recurrir al Data Warehouse central. Por lo cual, hay que poner en marcha un proceso ETL completo, aunque el tiempo de implementación es menor al tratarse de cantidades de datos menores. Es útil si queremos resultados rápidos y para necesidades específicas de un departamento concreto. Sin embargo, este tipo de Data Mart es menos escalable y la duplicación de datos en distintos Data Mart es inevitable. A continuación, si es necesario para la empresa,  se integran los datos en un Data Warehouse, en este caso se conoce como enfoque Bottom Up.
  • Finalmente, un Data Mart hibrido permite combinar las ventajas de los dos modelos anteriores, integrando datos provenientes de un Data Warehouse central con otras fuentes externas. Es útil cuando se necesita una integración ad hoc, como cuando se agrega un nuevo grupo o producto a la organización.

Además, en cuanto al diseño, un Data Mart puede ser construido siguiendo dos modelos distintos:

  • El modelo estrella, que consta de una tabla central de “hechos” relacionados con un proceso o evento comercial específico, y varias tablas por cada dimensión de análisis alrededor de ellos.
  • El modelo copo de nieve, una variación del anterior, en el cual las tablas de dimensiones se han normalizado, para evitar la redundancia de datos y proteger su integridad.

10 Razones para usar un Data Mart

Después haber analizado las principales características de un Data Mart, podemos preguntarnos para qué nos puede servir en nuestra empresa. Vamos a ver algunos escenarios prácticos:

  1. Generar datos orientados a usuarios finales y a perfiles de negocio. Como hemos visto anteriormente, el Data Mart permite almacenar datos de una forma más sencilla y orientada al análisis. Esto permite optimizar la entrega de información para dar soporte a las decisiones.
  2. Empoderar a los usuarios de negocio y dotarles de herramientas analíticas que ellos mismos pueden usar de forma sencilla.
  3. Crear una copia estática de un conjunto del Data Warehouse para fines analíticos. Un Data Warehouse se actualiza de forma diaria, por lo cual es probable que necesitemos una “foto” estática para poder realizar análisis de datos y que podemos desechar en cuanto cumplamos con nuestro objetivo.
  4. Recuperar más rápidamente los datos que necesitan los usuarios finales. De la misma manera, los análisis realizados sobre un Data Mart son más rápidas y ágiles.
  5. Crear en nuestra empresa mecanismos de respuestas más rápidos a los cambios de requerimientos de negocio, aumentando la productividad.
  6. Llevar a cabo un proceso de minería de datos. El data mining genera una gran carga de trabajo, por lo cual a veces nos puede beneficiar realizar este proceso sobre un Data Mart, para no afectar el rendimiento del Data Warehouse central.
  7. Aligerar el trabajo de consultas al Data Warehouse. Si identificamos que existen consultas frecuentes sobre las mismas tablas de un Data Warehouse, podemos aligerar la carga de trabajo realizando copias de estas tablas en Data Mart.
  8. Modificar datos para simular escenarios de negocios. De esta manera, creamos copias de los datos en un Data Mart que podemos modificar a nuestro antojo, y esto no afectará a los datos en el Data Warehouse principal.
  9. Dar soporte a acciones concretas. Si necesitamos, por ejemplo, poner en marcha campañas de marketing, nos beneficiaremos de un Data Mart al uso que nos permitirá calcular los indicadores de negocio clave, como el ROI.
  10. Crear un Data Mart de tipo OLAP y orientado al análisis a partir de un Data Warehouse estructurado de forma OLTP, orientado a las transacciones.

Retos de los Data Mart

Hasta aquí, hemos entendido la utilidad y la necesidad de los Data Mart para nuestra empresa. Sin embargo, la pregunta principal no es si necesitamos Data Mart o no, sino cómo implementarlos de forma correcta y para que resulten útil a los departamentos de nuestra empresa. Entre las principales dudas a la hora de implementar un Data Mart, se encuentran:

  • La dificultad de mantener una cierta consistencia de datos entre todos los Data Mart de los distintos departamento, para que funcionen de forma coordinada, evitando redundancia de datos y islas de información.
  • La denormalización a la hora de crear un Data Mart, si no llevada a cabo de forma correcta, podría dificultar la extracción de información de los datos.
  • El almacenamiento de datos agregados en vez de datos detallados.
  • La orientación del rendimiento hacia un pequeño grupo de consultas preseleccionadas a expensas de todos los demás análisis exploratorios.

¿Cómo implementar un Data Mart en 5 pasos?

Si nos hemos convencido que un Data Mart es lo que necesitamos, entonces podemos implementar uno en 5 pasos:

  1. Diseño. En esta fase se recopilan los requisitos comerciales y técnicos, se identifican las fuentes de datos, se selecciona el subconjunto apropiado de datos y se diseñan la estructura lógica y física del Data Mart.
  2. Implementación. A este punto, se crea la base de datos física y las estructuras de almacenamiento asociadas con el Data Mart; a continuación se crean los objetos de los esquemas, como las tablas y los índices definidos en el paso de diseño; finalmente, se determina la mejor manera de configurar las tablas y las estructuras de acceso para una ejecución óptima de las consultas.
  3. Poblamiento. Incluye la asignación de datos de origen a datos de destino y, en su caso) la extracción, transformación y carga (ETL) en el Data Mart. También se lleva a cabo la creación y el almacenamiento de los metadatos.
  4. Acceso. Esta fase implica utilizar los datos: consultar los datos, analizarlos, crear informes, cuadros, gráficos, y otras interfaces de negocio.
  5. Gestión. Incluye tareas como: asegura un acceso seguro a los datos, gestionar el crecimiento de los datos, optimizar el sistema para un mejor rendimiento y garantizar la disponibilidad de datos en caso de fallos de sistema.

Hemos visto como un Data Mart es el mecanismo a través del cual los usuarios de negocio pueden acceder y ver los datos que se han transformado y enriquecido en una vista holística de todos los activos de datos de la organización. Un Data Mart es esencial para cualquier empresa que quiera basar sus decisiones en los datos. Sin embargo, se debe prestar especial atención con el fin de  diseñar una solución apropiada que se alinee con los requisitos del negocio y la dirección estratégica de la organización.

¿Estás preparado para crear un Data Mart?

Material relacionado

Artículos

eBooks






New Call-to-action