Blog de Analytics

Tres pasos para aplicar procesos de calidad de datos

Escrito por Logicalis | 28/06/14 6:00

Las etapas para garantizar la integridad, la fiabilidad y la calidad de los datos en un proceso de migración son las tres que señalamos a continuación:

I. Investigación

La prioridad de todo proyecto de migración de datos debe ser garantizar la calidad de la información, ya que la inteligencia de negocio se basa en operar sobre datos fiables e íntegros. En el proyecto de migración de datos es fundamental, como siempre, obtener información veraz y precisa.

Es importante, por lo tanto, investigar la totalidad de los datos que quedarán sujetos al proceso de migración, no realizar ningún descarte ni emplear mayores recursos para la investigación de unos datos relegando a otros, contar con todos los inputs posibles (propietarios del dato, usuarios que interactúan con él...), contrastar la información obtenida y validar las conclusiones alcanzadas.

En esta etapa hay que ser capaz de descubrir potenciales anomalías en los datos, alcanzar un 100% de visibilidad de los campos de contenido libre, identificar valores por defecto e inválidos, revelar reglas de negocio indocumentadas, garantizar la veracidad de los datos contenidos en los campos que se emplearán para los criterios de emparejamiento, y entender los datos en su contexto.

 

II. Estandarización

Supone ahondar en el conocimiento del dato desde la óptica lógica y minimizando su parte abstracta para facilitar su traslado en condiciones de control. Viene motivada por distintas necesidades que se plantea a lo largo del proceso de migración de datos.

La estandarización implica unas condiciones óptimas en cuanto a la incorporación de un lenguaje altamente flexible de reconocimiento de patrones, el uso de reglas específicas para nombres y apellidos, direcciones o fechas, la división de los datos por su naturaleza (nombres, tipo de vía, nombre de calle, número de calle...), la normalización de la escritura de los datos y la parametrización de tablas de clasificación y estandarización.

III. Emparejamiento

Conocido también como Data Matching, consiste en efectuar una comparación de los datos que serán objeto de la migración con otros recogidos en una base de datos de conocimiento. Previamente es necesario definir un porcentaje de aceptación que se considere válido para establecer una política de emparejamiento que marque las directrices.

El emparejamiento de datos es necesario, además de para una buena migración de datos, para confiar en la consistencia e integridad de los mismos una vez finalizada la migración. La finalidad de las técnicas de emparejamiento de datos consiste en identificar registros posiblemente coincidentes, establecer relaciones entre registros de archivos distintos, documentarse en tablas de decisión deterministas que han de resultar en un emparejamiento (comparación de campos, letter grade assigned, letter grade combination, letter grade assignment to file...) e incluir la probabilística de casación de registros, que se resuelven en la probabilidad estadística de un emparejamiento (se miden con la evaluación de los campos por el grado de concordancia, la asignación de pesos que representa el contenido por valor, y la suma de pesos para asignar un peso total).

Para que el emparejamiento sea del todo efectivo debe complementarse con una limpieza de datos mediante la definición de estándares que dictaminen qué datos son correctos y cuáles no.