Blog de Analytics

Data cleansing y sus fases: contra los problemas de calidad de datos

Escrito por Logicalis | 12/02/15 7:00

La limpieza de datos, data cleansing o scrubbing es un proceso necesario para asegurar la calidad de los datos que se emplearán para analytics. Este paso es fundamental para minimizar el riesgo que supondría el basar la toma de decisiones en información poco precisa, errónea o incompleta.

El data cleansing se ocupa de solucionar problemas de calidad de datos a dos niveles:

  • Problemas relacionados datos procedentes de una única fuente: a este nivel se encuentran las cuestiones relacionadas con la falta de integridad de las restricciones o la precariedad del diseño del esquema; que afectarán a su vez a la unicidad del dato y a su integridad referencial, principalmente. Aunque, en un sentido más práctico en este apartado también podrían englobarse las cuestiones relacionadas con la entrada de datos, en cuanto a redundancias o valores contradictorios, entre otros.

  • Problemas relacionados con datos provenientes de diversas fuentes de origen: por norma general surgen como resultado de la heterogeneidad de los modelos de datos y esquemas, que pueden causar conflictos estructurales; aunque, a nivel de instancia, se relacionan con las duplicidades, contradicciones e inconsistencias de los datos.

 

Créditos fotográficos: istock ogniamn

 

 

Las fases del data cleansing

El objetivo final de cualquier acción de data cleansing es mejorar la confianza de la organización
en sus datos. Para llevar a cabo una acción de limpieza de datos exhaustiva es necesario seguir las siguientes fases:

1. Análisis de datos: su misión es determinar qué tipo de errores e inconsistencias deben ser eliminados. además de una inspección manual de las muestras de datos, es necesaria la automatización, en otras palabras, la incorporación de programas que actúen sobre los metadatos para detectar problemas de calidad de datos que afecten a sus propiedades.

2. Definición del flujo de transformación y reglas de mapeo: dependiendo del número de fuentes de origen de datos, su heterogeneidad y la previsión de problemas de calidad de los datos, será necesario ejecutar más o menos pasos en la etapa de transformación y adecuación. Lo más adecuado es plantear una acción a dos niveles, una en un estadio temprano, que corrija los problemas relacionados con datos procedentes de una única fuente y los prepare para una buena integración; y otra, que intervenga de forma posterior, tratando los problemas de datos procedentes de una diversidad de fuentes. Para mejorar el control sobre estos procedimientos conviene definir los procesos ETL encuadrándolos en el marco de trabajo concreto.

3. Verificación: el nivel de adecuación y la efectividad de una acción de transformación debe siempre ser testado y evaluado; uno de los principios del data cleansing. Por norma general, esta validación se aplica a través de múltiples iteraciones de los pasos de análisis, diseño y verificación; ya que algunos errores sólo se ponen de evidencia tras aplicarse a los datos un número determinado de transformaciones.

4. Transformación: consiste en proceder a ejecutar el flujo ETL para cargar y refrescar el data warehouse, o durante la respuesta a consultas, en los casos de multiplicidad de fuentes de origen.

5. Reflujo de datos limpios: una vez se han eliminado los errores de calidad, los datos "limpios" deben reemplazar a los que no lo están en las fuentes originales, para que las aplicaciones de legado puedan beneficiarse también de ellos, evitando necesitar de la aplicación de acciones de data cleansing en el futuro.

 

Post relacionados: