Datastage: qué es, cómo funciona y cómo puede ayudar a tu empresa

Índice de contenidos

Datastage es una herramienta ETL que forma parte de la suite de soluciones de IBM Information Platforms e IBM InfoSphere.

Existen muchas herramientas ETL en el mercado, las más conocidas son: Oracle BI, Informatica PowerCenter, IBM DataStage, SAS Data Manager, SAP Data Services, Business Objects, Cognos, Microstrategy, Talend Open Studio y Pentaho Data Integration.

En este post vamos a descubrir qué es IBM InfoSphere Datastage, cómo funciona y cómo puede ayudarnos a integrar datos de múltiples fuentes.

¿Qué es Datastage y para qué sirve?

Datastage es una herramienta ETL que puede extraer datos, transformarlos, aplicar reglas de negocio y luego cargarlos en el destino deseado. Puede integrar todo tipo de datos, incluidos  Big Data.  DataStage facilita el análisis comercial al proporcionar datos de calidad para ayudar a obtener inteligencia empresarial. Además, proporciona una interfaz gráfica para gestionar de forma amigable procesos de integración de datos.

Datastage fue creado por VMark a mediados de los años 90. Después de ser adquirido por IBM en 2005, se renombró a IBM WebSphere DataStage y más tarde a IBM InfoSphere.

Las fuentes de datos con las que puede trabajar Datastage son casi infinitas e incluyen archivos secuenciales, archivos indexados, bases de datos relacionales, bases de datos mainframe, fuentes de datos externas, aplicaciones empresariales, etc.

Podemos usar Datastage en nuestra empresa principalmente en los siguientes escenarios:

  • Creación y mantenimiento de Data Warehouse o Data Mart.
  • Integración de datos de diversas fuentes.
  • Migración de datos de varias fuentes.

Datastage: características principales

Datastage ofrece interesantes capacidades como:

  • Implementa reglas de validación de datos.
  • Es útil para procesar y transformar grandes cantidades de datos.
  • Utiliza un enfoque de procesamiento paralelo escalable.
  • Puede manejar transformaciones complejas y administrar múltiples procesos de integración.
  • Puede conectarse a aplicaciones empresariales tanto como fuentes como destinos de datos.
  • Usa metadatos para análisis y mantenimiento.
  • Puede funcionar en batch, en tiempo real o como un servicio web.

¿Cómo usar Datastage en mi empresa?

Datastage puede funcionar en dos modalidades :

  • Modalidad ETL. Se aloja en el servidor de la empresa, extrae y procesa los datos de las distintas fuentes. También puede funcionar en varias máquinas en clústeres o grids.
  • Modalidad de diseño y supervisión. Mediante herramientas gráficas, Datastage se puede utilizar para diseñar y supervisar los procesos ETL, y también para administrar los metadatos relacionados.

Además, Datastage está disponible para ser instalado en diferentes variantes:

  • Server Edition: se ejecuta en un solo servidor y no permite paralelismo. Genera código en un lenguaje llamado DataStage BASIC.
  • Enterprise Edition: se ejecuta en una arquitectura que permite el paralelismo automático en un entorno SMP o clúster (MPP). Genera scripts OSH (Orchestrate shell).
  • Enterprise MVS edition: se utiliza para la ejecución de mainframe. Datastage genera COBOL y JCL que se transfieren y se ejecutan en el mainframe.

Datastage tutorial

A continuación vamos a ver de forma resumida cómo funciona Datastage:

  • La actividad ETL se realiza a través de trabajos (jobs). Un trabajo de Datasage es una unidad ejecutable que puede compilarse y ejecutarse de manera independiente o como parte de un flujo de datos. Un trabajo describe el flujo de datos desde una fuente de datos a un destino. Un trabajo contiene varias etapas (stages) individuales que están vinculadas entre sí a través de enlaces (links).
  • Una etapa consiste en un mínimo de una entrada de datos y una salida de datos. Entre las etapas que se pueden usar hay:
    • Transformación
    • Filtro
    • Agregador
    • Eliminación de duplicados
    • Join
    • Búsqueda
    • Copia
    • Ordenación
    • Contenedores
  • Los enlaces se utilizan para conectar varias etapas en un trabajo para definir el flujo de datos.

DataStage posee cuatro módulos principales:

  • Administrador: se usa para configurar usuarios, criterios de purga y crear y mover proyectos.
  • Manager: es la interfaz principal del repositorio y permite gestionar y almacenar los metadatos que se pueden reutilizar
  • Designer: es una interfaz de diseño que se usa para generar aplicaciones (trabajos), que se compilan para crear un ejecutable que es programado por el módulo Director y ejecutado por el módulo Servidor.
  • Director: se usa en la validación, programación, ejecución y supervisión de los trabajos generados por el servidor DataStage y trabajos paralelos.

¿Necesita mi empresa Datastage?

Si quieres transformar tu empresa en una organización data driven, necesitas acometer una serie de pasos clave, pero primero tienes que dotarte de un Data Warehouse y poner en marcha los procesos ETL que te ayuden a construirlo. En esta tarea, una herramienta como Datastage peude ser tu aliado fundamental.

¿Estás listo para aprovechar tus datos?