Los procesos ETL han sido siempre una parte importante, aunque lamentablemente poco reconocida, del mundo del almacenamiento de datos. Parece imposible concebir un data warehouse sin pensar en los procesos ETL. Pero hay varias razones por las que su papel es más relevante y más difícil en estos días, motivos que exceden los desafíos que las migraciones de datos planteaban hasta ahora.
Créditos fotográficos: istock revelpix
1. Heterogeneidad de orígenes de datos.
2. Multiplicidad de tipos de datos.
3. Requisitos de integración más exigentes que nunca.
Se requieren formas muy complejas y nuevas de transformación de datos para lograr la utilidad perseguida, aunque el cambio a nivel de volumen también es reseñable. Es tal la transformación, que los procesos ETL tradicionales pueden no servir ya que, en muchos casos, se precisa de un trabajo de procesamiento en profundidad de forma previa; por ejemplo, las fuentes orientadas a texto requieren del procesamiento del lenguaje por adelantado, para poder crear un significado estructurado que se pueda utilizar posteriormente en el análisis.
Disponer de datos históricos donde se necesitan y cuando hacen falta.
Asegurar la consistencia de datos en todas las fuentes, al ser compatibles con operaciones complejas de calidad de datos.
Puede ser que departamentos como el de marketing o el comercial prioricen la agilidad, sin embargo, en otras áreas de la empresa, como la de finanzas o contabilidad es preciso estar absolutamente seguro de la veracidad de datos antes de utilizarlos para el reporting y la toma de decisiones. Por eso, en vez de deshacerse de los procesos ETL, las organizaciones están optando por mejorar sus capacidades con otras tecnologías, como la virtualización de datos, que les ayuda a superar sus limitaciones en relación con los nuevos formatos y tipos de datos y la variedad de sus fuentes de origen.
La virtualización de datos es el complemento idóneo de los procesos ETL al permitir conectarse a cualquier fuente de datos, interna o externa, estructurada o no estructurada; integrando sus datos para aportar diferentes perspectivas de sus variables, y exponiendo los distintos puntos de vista como servicios de datos.
Post relacionados:
Data Quality: la calidad de datos en el Social Media Analytics
Inteligencia empresarial y social media analytics: quién es quién