Cualquier proyecto de mejora de la calidad de los sistemas de información debe construirse sobre una primera etapa de perfilado de los datos, fundamental para llegar a buen puerto las iniciativas de gestión de la información. Una tarea, además, que debe ser permanente y obliga a definir un marco de actuación que siente las bases de una estrategia integral de la información en cualquier empresa u organismo público. Sólo después de ello, es posible diseñar las reglas de calidad interna, proceso también conocido como Data Discovery.
Con el perfilado de los datos, en realidad, estamos iniciando una auditoría de calidad completa de esta información, que luego permita encontrar las causas raíz de los errores que se produzcan y, de esta forma, encontrar la solución de estos problemas.
Los errores pueden producirse por un sinfín de motivos, como migraciones entre sistemas, entrada de datos, incorporación de nuevos registros o multiplicidad y diversidad de las fuentes de estos. Lo cierto es que en nuestros días la proliferación de canales y datos disponibles se ha multiplicado exponencialmente, con lo que se impone el perfilado de datos, más si cabe.
Esta decisión reportará datos de calidad, limpieza de los recursos que se manejan en el negocio a diario y un orden lógico, que fluya desde el descubrimiento y análisis de los datos hasta la definición, desarrollo, revisión y monitorización de los mismos.
La tarea no es estándar para cualquier organización y debe adecuarse a las características y peculiaridades de cada negocio, buscando siempre el equilibrio entre su coste y la funcionalidad pretendida.
Aunque idealmente debería afrontarse el proceso de forma global, no departamental, es habitual que se lleve a cabo de forma progresiva. Por lo tanto, si las soluciones de gobernabilidad y calidad del dato carecen de un enfoque global, al menos deben ser escalables y evolucionar en el tiempo para que afecte a todo tipo de datos y a todas las fuentes disponibles.
Aquí surge la necesidad de dotarse de una primera auditoría de calidad de los datos que, a modo de cuadro de mandos, nos informe del nivel cuantitativo y cualitativo de estos datos (con porcentajes de errores, datos duplicados o redundantes, incompletos o desactualizados).
Una vez determinado el punto de partida, es posible establecer iniciativas de corrección que mejoren su calidad, lo que generalmente se conoce como Data Quality que establezca también tareas de control de la calidad, para llegar a un escenario en el que no sólo se avance en la mejora, sino que también se garantice esta calidad de forma permanente. Es lo que se conoce en el gremio como Data Assurance, y que es la última estación en nuestro viaje hacia la calidad del dato, siempre entendida como un proceso de mejora continua que identifica las áreas de mejora y las que presentan problemas de calidad más graves y/o numerosos.
Un primer paso para actuar y poner las bases para ganar velocidad y alcance en los análisis, crear un repositorio central de datos y metadatos, que establezca la idoneidad y calidad de estos, y que, además, se pongan al alcance de todos los usuarios que lo demanden.