El emparejamiento de datos, también conocido como data matching, busca efectuar una comparación de los datos que serán objeto de la migración con otros, recogidos en una base de datos de conocimiento. Para llevar a cabo este cotejo es necesario definir de forma previa un porcentaje de aceptación que se considere válido. Tomándolo como referencia, podrá establecerse una política de emparejamiento que marque las directrices a seguir en este proceso.
La importancia de esta técnica es crucial para la calidad de los datos. En otras palabras, aplicar el matching es necesario, no sólo para obtener un buen resultado en la migración de datos, sino también para poder confiar en la consistencia e integridad de los mismos, ya finalizado el proyecto de migración de datos.
Créditos fotográficos: "Cube" by graur razvan ionut
Cuando se ponen en práctica las técnicas de emparejamiento de datos, no hay que perder de vista cuál debe ser su finalidad, que delinea el procedimiento a seguir, consistente en:
- Identificar registros posiblemente coincidentes.
- Establecer relaciones entre registros de archivos distintos.
- Documentarse en tablas de decisión deterministas que han de resultar en un emparejamiento, porque de lo contrario podrían constituir un fallo o avisar de la detección de un elemento sospechoso. Las más habituales son:
• Comparación de campos.
• Letter grade assigned.
• Letter grade combination.
• Letter grade assignment to file.
- Incluir la probabilística de casación de registros, que se resuelven en la probabilidad estadística de un emparejamiento,y se lleva a cabo teniendo en cuenta las siguientes reglas:
• Los campos son evaluados por el grado de concordancia.
• La asignación de pesos representará el contenido por valor.
• Se procederá a la suma de pesos para asignar un peso total.
Para que el emparejamiento de datos sea realmente efectivo se debe complementar con la limpieza de datos. Esta parte del proceso requiere de la definición de estándares en base a los que poder determinar qué datos se consideran correctos y cuáles no lo son.