El proceso intuitivo de conocer el contenido de una base de datos consiste en consultar, una por una, la totalidad de las tablas que la componen. A priori, puede parecer una técnica apropiada y una decisión razonable, pero ¿qué comportamiento tiene cada campo de cada tabla? y ¿cómo es posible anticiparse a conocer el contenido de una base de datos?
El perfilado de datos da respuesta a estas cuestiones y complementa a la etapa de descubrimiento de datos permitiendo efectuar un análisis que resulte en conclusiones que aporten información acerca de la calidad de los datos orígenes, su completitud y sus interrelaciones.
Créditos fotográficos: "Circuit Board" by Michelle Meiklejohn
Es imprescindible tener el conocimiento, no sólo de los datos que recogeremos de la base de datos antigua en nuestro proyecto de migración de datos, sino también de cómo se comportan. Un ejemplo claro:
Tomando una tabla de clientes, en la que existe un campo de tipificación “TIP” de un único dígito. En el barrido general de la tabla, y mediante una primera lectura diagonal, puede apreciarse que, en general, los valores que adopta son 0 ó 1. Sin embargo, el hecho de no haber perfilado genera un riesgo, habitual cuando el proceso de conocimiento sólo es humano, que es el de no contemplar otros valores que pueden adoptarse.
En este mismo ejemplo, el realizar un proceso de perfilado de datos, podría ayudar a conocer que en esa tabla de clientes también existen:
- 45% de ocurrencias del campo “TIP” con valor “0”
- 49% de ocurrencias del campo “TIP” con valor “1”
- 4% de ocurrencias del campo “TIP” con valor “X”
- 1% de ocurrencias del campo “TIP” con valor nulo
- 1% de ocurrencias de campo “TIP” con valor “-”
Si no se lleva a cabo el perfilado de datos se corre el riesgo de no conocer y, por tanto, de prescindir posiblemente de hasta un 6% de datos. Actuar de esta manera incrementa el riesgo a la vez que reduce drásticamente el índice de calidad. Por ello se considera al perfilado como una pieza fundamental en los procesos de calidad de datos.
Si bien el perfilado es un método que, con cierto esfuerzo, se podría lograr manualmente, hoy día no es necesario ejecutarlo de esta forma ya que existe en el mercado una amplia gama de soluciones que perfilan y documentan resultados de forma automática. Las ventajas principales de optar por el automatismo, sin perjuicio de contar con el apoyo del propietario del dato, son:
- Rapidez.
- Evitar errores.
- Mayor facilidad a la hora de efectuar el análisis de datos.