Los procesos ETL aparecieron en la década del 70. En esa época, las empresas empezaban a recolectar datos provenientes de diferentes fuentes. Los programas ETL nacieron para responder a la necesidad de integrar los diferentes tipos de datos.
Detrás de estas siglas, hay 3 etapas esenciales en la gestión de datos y la business intelligence: extract-transform-load, es decir, la extracción de datos de la empresa, la transformación y la carga en los data warehouse. Al final del proceso, el programa ETL habrá logrado producir datos propios de fácil accesoy que puedan ser explotados eficazmente con analytics, business intelligence y las diferentes áreas de la empresa.
Primera etapa, la extracción de datos
La primera etapa del proceso ETL consiste en extraer datos brutos que han sido recolectados por la empresa y pueden provenir de diferentes fuentes : bases de datos existentes, reportes de la actividad de la empresa, bases de datos no estructuradas relativas a los comportamientos, el desempeño y las anomalías de las aplicaciones, o de otras operaciones diversas.
La extracción de datos permite consolidar, tratar y afinar los datos para luego almacenarlos en un espacio centralizado antes de transformarlos.
Segunda etapa : la transformación de datos.
Una vez que se han extraído los datos, la segunda etapa consiste en afinarlos. Durante esta fase de transformación, los datos son ordenados, estructurados y tratados : los datos duplicados y los valores faltantes se eliminan, el conjunto de datos se verifica para lograr obtener datos coherentes, explotables y confiables.
Tercera etapa : la carga de datos
La carga de datos, representada con la palabra “Load” en Extract Transform Load, consiste en encaminar los datos tratados y ordenados hacia un nuevo espacio de almacenamiento, los data warehouse, desde donde todas las áreas de la empresa podrán acceder a ellos y analizarlos. En general, los data warehouses aceptan 2 modos de carga de datos: carga completa y carga incremental. Este último solo toma en cuenta los datos que sean diferentes de aquellos presentes en el espacio de almacenamiento.
Los beneficios de un software ETL
Todas las etapas del proceso ETL se pueden realizar manualmente, pero los márgenes de error son particularmente altos. En la era del Big Data, las empresas recolectan cada vez más datos y para muchas de ellas el tratamiento manual requerirá movilizar muchos empleados. El procesamiento automático permite un mayor control de los datos, más agilidad gracias a la centralidad del proceso ETL en un solo programa, mejora los intercambios entre diferentes servicios de la empresa y aumenta la precisión.
¿Cuáles son los actores principales en el mercado de los ETL?
Existen diferentes soluciones pagas y Open Source en el mercado de los softwares ETL. Dentro los más conocidos podemos mencionar BRIT, Cloudera, Pentaho y Talend.
Birt, del inglés Business Intelligence Reporting Tools, permite crear con Data Visualisation, gráficos y reportes que se pueden integrar directamente en cualquier plataforma web y en los informes para clientes. Se trata de una solución open source que permite reutilizar el código e integrar estos módulos en diferentes aplicaciones.
Cloudera, es otra solución ETL que propone un análisis multifuncional sobre una plataforma unificada que elimina el almacenamiento fragmentado y permite un análisis de datos más eficiente. Cloudera hace énfasis en la seguridad y en la gobernancia de los datos y en la producción de metadatos coherentes. Es flexible y permite la carga de datos en un cloud público, un multi-cloud o directamente en el sitio web.
Pentaho, antes conocida como Kettle, se trata también de un software open source que permite la concepción y ejecución de operaciones para manipular y transformar datos muy complejos. Pentaho existe en versión gratuita pero la versión paga ofrece muchas más funcionalidades.
Por último, el francés Talend es también uno de los principales actores en el mercado. Es el creador de una serie de softwares open source que existen desde 2005. Su software ETL es conocido bajo el nombre de Talend Open Studio for Data Integration (TOS). Permite crear flujos de manera intuitiva con la ayuda de una interfaz gráfica. Este programa es particularmente apreciado por su simple utilización, su flexibilidad y su evolución. Talend propone con su serie de programas diversas herramientas que permiten recolectar, clasificar, tratar, centralizar y restituir datos.
Existen muchas soluciones para extraer, transformar y cargar datos. Los softwares ETL, ya sean gratuitos o pagos, están hechos para facilitar y asegurar la gestión de datos y su análisis. Como las empresas recolectan cada vez más datos, seguro el mercado de los ETL continuará a desarrollarse y tendrá cada vez más funcionalidades que serán cada vez más cualitativas.