La aparición de Oracle Data Integrator 11g, y su nueva versión Oracle Data Integrator 12c, ha supuesto un nuevo paso estratégico, por parte de Oracle, en el desarrollo de una plataforma de integración de datos estable y consistente. Además, constituye una plataforma puente entre los sistemas Datawarehouse y las plataformas de análisis de Business Intelligence.
Antes de extraer conocimiento estrátegico útil de nuestros sistemas operacionales, es necesario organizar la información de la manera adecuada en sistemas de almacenamiento de datos conocidos como Datawarehouses. Estos sistemas se diseñan con el objetivo de poder obtener y analizar los datos que maneja la empresa de una manera eficaz, aprovechando las ventajas competitivas que el análisis de éstos datos puede ofrecer.
En la mayor parte de las ocasiones, los datos a analizar y que forman parte del Datawarehouse provienen de aplicaciones diferentes e incluso se almacenan y utilizan con tecnologías y plataformas diversas. Esto hace que el proceso de obtención, de consolidación y de transformación de los datos, antes de ser cargados en el Datawarehouse sea un proceso laborioso que, además, requerirá del conocimiento de múltiples tecnologías.
La aparición de ODI viene a facilitar ésta tarea, ofreciendo un producto integrado “independiente” de la plataforma, independiente de los sistemas de almacenamiento de datos e incluso independiente del modelado de los datos y que permite además la administración, la gestión y el control de todo el proceso.
ETL vs ELT
Los datos se almacenan en bases de datos de diferentes fabricantes, ficheros del sistema operativo, ficheros Excel, Access, … Al estar almacenados en orígenes de datos tan heterogéneos, hace que no siempre sea posible compartir y almacenar dicha información.
El propósito de las herramientas ETL (Extract – Transform – Load) es facilitar la integración de dichos datos. El enfoque tradicional ha consistido en extraer los datos de las plataformas de origen (Base Datos Source/Origen) dónde se encuentran almacenados, integrarlos y transformarlos en una plataforma común (conocidad como Staging Area) para finalmente ser cargados en el Datawarehouse final (Base Datos Target/Destino).
En este tipo de esquemas, se realizan la totalidad de las operaciones registro a registro en el área intermedia del servidor ETL, pudiéndose convertir éste en el cuello de botella del sistema. Además, los datos son movidos en dos ocasiones: una para realizar la carga de los datos en el área intermedia y otra para proceder a su carga en el destino final, lo que producirá una sobrecarga de la red.
Como puede apreciarse en la figura, ODI propone un nuevo tipo de arquitectura que viene a paliar los dos problemas mencionados anteriormente.
El área intermedia utilizada en el enfoque ETL tradicional desaparece, realizándose todas las operaciones de transformación en la Base Datos Final. Con ésta arquitectura, los datos únicamente se mueven una sola vez con el consiguiente ahorro de tiempo en los procesos de carga y minimizando los posibles errores que se pudieran producir en la migración de los datos.
En resumen, la nueva perspectiva que nos ofrece ODI respecto a la integración de datos siguiendo un modelo E-LT, en lugar del ETL utilizado mayoritariamente hasta el momento, nos va a reportar como ventajas:
- La capacidad de definir área de integración de los datos en la base de datos destino minimizando el movimiento de los datos en el proceso.
- La capacidad de generar transformaciones tanto en el origen como en el destino de los datos, utilizando funciones de transformación propias del gestor en que se encuentran almacenados los datos.
Si quieres especializarte con más profundidad en Oracle, consulta los cursos específicos que impartimos en CLEFormación sobre esta materia.