En los tiempos que corren, cada vez con mayor frecuencia, se hace necesario conocer la trazabilidad de los datos. Las razones que empujan a las empresas a contar con esta necesidad a la hora de planificar la gestión de datos en proyectos de Data Warehouse no son sólo de prevención o para asegurarse una fácil localización de errores que simplifique su corrección, sino que también tienen mucho que ver con las normativas legales, que empiezan a proliferar en este entorno, y que exigen controlar y conocer la trazabilidad de los datos, como es el caso de Solvencia II en el sector asegurador.
En líneas generales, puede afirmarse que gestionar la trazabilidad de los datos (a la que también es posible referirse como linaje, Data Lineage en inglés), es la capacidad de conocer todo el ciclo de vida de un dato, desde la fecha y hora exacta en que fue extraído, el momento en que se produjo su transformación, y hasta el instante en que tuvo lugar su carga desde un entorno fuente (servidor, fichero, tabla campo, etc.) a otro de destino.
Generar linaje o trazabilidad manualmente es posible pero complejo. Básicamente, los procesos de movimientos de datos deben generar datos de auditoría, almacenándolos en un repositorio. Este área de almacenamiento ha de quedar vinculada a cada uno de los datos. Como puede imaginarse, el esfuerzo de llevar a cabo una tarea de este tipo es increíblemente elevado, con la contrapartida de que, además, es frecuente que implique errores por su condición manual.
Leer más