2. Transformación de datos - ETL
La primera parte del proceso ETL consiste en localizar y extraer los datos, ya que en la mayoría de los proyectos de almacenamiento se fusionan datos provenientes de diferentes sistemas de origen tales cómo ERP, CRM, bases de datos, planillas Excel, etc.
Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir también bases de datos no relacionales y otras estructuras o formatos diferentes. La extracción convierte los datos a un formato homogéneo y consolidado para iniciar el proceso de transformación.
Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause el menor impacto en el sistema de origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razón, en sistemas grandes las operaciones de extracción suelen programarse en horarios o días donde este impacto sea nulo o mínimo.
La fase de carga es el momento en el cual los datos de la fase anterior (transformación) son cargados en el sistema de destino.
Este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la información antigua con nuevos datos. En la mayoría de los casos, se generan data warehouses o data marts en dónde se mantiene un historial de los registros de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.