<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=1500086133623123&amp;ev=PageView&amp;noscript=1">

Data profiling no es lo mismo que evaluación de calidad de datos

Publicado el 17/12/14 8:00

Confundir data profiling con evaluación de la calidad de los datos es un problema más frecuente de lo que pudiese parecer a simple vista. A pesar de tratarse de funciones relacionadas, no se ocupan de los mismos aspectos y, sin embargo, todavía hay mucha gente, incluso en entornos de gestión de datos, que emplea ambos términos de forma indistinta.

data profiling

Créditos fotográficos:  istock Yakobchuk

El origen del error: data profiling no es sólo una evaluación de datos

La causa que motiva esta confusión suele provenir de la primera toma de contacto con una herramienta de data profiling. A conectarla a las fuentes de datos se logra una enorme cantidad de conocimiento que aporta una perspectiva única sobre los niveles de calidad disponibles. No obstante, no hay que llevarse a error: estas primeras investigaciones no son evaluaciones de datos y no deben ser consideradas como tal.

Una evaluación se caracteriza por tener la capacidad de:

  • Determinar el valor de algo.

  • Revelar la importancia o magnitud de lo que se está midiendo.

  • Poner en disposición de comparar algo con otra cosa.


    Si bien, muchas empresas insisten en utilizar técnicas de data profiling como punto de inicio y fin de su evaluación de calidad de datos. El resultado no es otro que la ausencia de capacidad para determinar si los datos obtenidos de cada perfil son:
  • Valorados de forma equilibrada y correcta.

  • Significativos para el negocio.

  • Reflejo del verdadero alcance de un tema en particular.

Conoce los pasos para preparar, modelar, y evaluar la información dentro de tu  empresa [Ebook Gratuito]

El modo óptimo de emplear técnicas de data profiling para conocer el nivel de calidad de los datos

La forma de incorporar el data profiling a un proceso de evaluación de la calidad de los datos en una organización, podría resumirse en tres etapas:

1. Data profiling: la aplicación de técnicas de perfilado de datos ayuda a descubrir y definir los requisitos de calidad de datos. El software de perfilado de datos se utilizaría como inicio del proceso de descubrimiento, pero no de evaluación. Se trata de encontrar las reglas y requisitos que ayudarán a llevar a cabo una evaluación más exhaustiva de la calidad de datos en un paso posterior.

2. Determinación de los requisitos de calidad de datos: gracias a la visibilidad proporcionada por la acción de data profiling, se está en disposición de empezar a definir algunas de las reglas de calidad de datos que los datos deberán cumplir. El objetivo es ser capaces de comparar la calidad de los datos con lo establecido por el conjunto de criterios aprobados.

3. Evaluación de la calidad de los datos: una vez perfilados los datos y descubiertos los requisitos o normas de calidad de datos, es momento de aplicar las reglas para proceder a la evaluación de los datos, registrando los que se considera han superado la prueba y los que no. En un marco de trabajo ideal, este proceso debería aplicarse también a cada una de las fuentes origen de los datos aunque, en circunstancias reales, no siempre es posible).

Siguiendo estos tres pasos se ha logrado obtener el máximo beneficio de la aportación del data profiling al proceso de evaluación de la calidad de los datos, sin que sus resultados lleven a error o dejen el proceso a medio terminar.

 

Post relacionados:

 

Recursos sobre Business Intelligence y Gestión de la Información