En los tiempos que corren, cada vez con mayor frecuencia, se hace necesario conocer la trazabilidad de los datos. Las razones que empujan a las empresas a contar con esta necesidad a la hora de planificar la gestión de datos en proyectos de Data Warehouse no son sólo de prevención o para asegurarse una fácil localización de errores que simplifique su corrección, sino que también tienen mucho que ver con las normativas legales, que empiezan a proliferar en este entorno, y que exigen controlar y conocer la trazabilidad de los datos, como es el caso de Solvencia II en el sector asegurador.
En líneas generales, puede afirmarse que gestionar la trazabilidad de los datos (a la que también es posible referirse como linaje, Data Lineage en inglés), es la capacidad de conocer todo el ciclo de vida de un dato, desde la fecha y hora exacta en que fue extraído, el momento en que se produjo su transformación, y hasta el instante en que tuvo lugar su carga desde un entorno fuente (servidor, fichero, tabla campo, etc.) a otro de destino.
Generar linaje o trazabilidad manualmente es posible pero complejo. Básicamente, los procesos de movimientos de datos deben generar datos de auditoría, almacenándolos en un repositorio. Este área de almacenamiento ha de quedar vinculada a cada uno de los datos. Como puede imaginarse, el esfuerzo de llevar a cabo una tarea de este tipo es increíblemente elevado, con la contrapartida de que, además, es frecuente que implique errores por su condición manual.
Las mejores opciones para lograr la trazabilidad deseada
Quienes se plantean cuál es la mejor opción para obtener trazabilidad han de saber que, a día de hoy, existen varios fabricantes de software que proporcionan sistemas de trazabilidad vinculados a las herramientas ETL y a los entornos de Business Intelligence. Si quiere hacerse una buena apuesta tecnológica, hay que orientar la elección a la adopción de un tipo de software que sea capaz de proporcionar la completitud de todo el ciclo, es decir:
* Un motor de base de datos, de alto rendimiento para la creación de Data Warehouse.
* Una plataforma de integración, que incorpore:
- Funcionalidades de Data Quality.
- Funciones de MDM.
- Capacidad para la gestión de metadatos.
- Posibilidad de gestionar trazabilidad en los datos.
- Herramientas de diseño, con capacidades de re-ingeniería inversa, para modelar y construir.