Cuándo debes preocuparte por el data quality

Escrito por Logicalis | 19/10/14 6:00

Data quality es la mayor preocupación de quienes se dedican al predictive analytics. Obtener fiabilidad de las predicciones depende de la calidad de datos para analytics alcanzada. El análisis predictivo se despliega en toda la organización, beneficiando de sus ventajas a todos los usuarios de negocio pero poniendo en riesgo también a todas las áreas operativas cuando no se da en las condiciones óptimas. Hablamos de calidad y, por ello, las técnicas de gestión de calidad de datos deben desempeñar un papel integral en la estrategia de análisis predictivo.

Las herramientas de análisis predictivo aplican sofisticadas técnicas de minería de datos y análisis estadístico aplicables a grandes volúmenes de datos históricos y recogidos en tiempo real. Pero, ¿qué sucede si esos datos no son válidos o si están dañados? ¿Cómo pueden los usuarios de la organización determinar qué eventos, acciones y condiciones pueden ocurrir en el futuro, si la información que están utilizando para hacer tales predicciones no es fiable?

Créditos fotográficos: "guarantee satisfaction logo" by digitalart

Calidad de datos para analytics: el momento de actuar respecto a data quality

El despliegue de modelos relacionados y herramientas de análisis no es suficiente cuando se trata de data quality para predictive analytics. Con el fin de garantizar los más altos niveles de precisión en los resultados, también se deben poner en marcha procedimientos que logren optimizar los datos que los modelos y herramientas consumen ya que, de lo contrario, éstos pueden terminar apuntando los usuarios en la dirección equivocada.

Desafortunadamente, muchas empresas pasan por alto la preparación de datos cuando se centran en el desarrollo de planes de análisis predictivo. La realidad es que data quality debería suponer entre el 60 y el 80 por ciento del coste y el esfuerzo total de cualquier iniciativa predictive analytics. Y esta inversión está justificada por los siguientes factores:

Variedad y heterogeneidad de fuentes de origen de los datos.
Volúmenes de los datos a trabajar.
Peso de los datos no estructurados en el total de la información a procesar.
Necesidad de recoger datos en tiempo real.

Todos estos elementos, unidos al alcance de los resultados del análisis predictivo dentro de la organización son razón, más que suficiente para mostrar una mayor preocupación por data quality desde estadios preliminares de todo proyecto de analytics.

Data quality assurance: cómo asegurar la calidad de datos para analytics

Asegurar data quality para analytics es un proceso continuo, no debe tomarse como una acción puntual en el tiempo. Los mejores resultados se obtienen cuando se trabaja en colaboración con los propietarios de los datos y siempre en condiciones de conocimiento y comprensión de las reglas de negocio. Partiendo de este nivel se puede proceder a:

Evaluación de los datos históricos e implementación de métodos de aseguramiento de data quality para los registros actuales: la calidad debe ser evaluada desde diversas perspectivas que, al menos, deben incluir la precisión, la coherencia, la completitud, la exhaustividad y la consistencia.
Perfilado y modelado de datos: los registros erróneos o conflictivos deben estar ubicados y corregidos, y los datos que faltan se deben ser completados. Este procesos se han de aplicar a tablas, registros, y atributos de diversas fuentes en toda la empresa, logrando la transformación, estandarización y enriquecimiento necesarios en cada caso.
Iteración: es importante tener en cuenta que estos pasos a menudo deben aplicarse varias veces y en distintos momentos, con el fin de hacer que los datos estén verdaderamente listos para nutrir a la herramienta de modelado.

Estos pasos ayudan a asegurar que la preparación de datos se aborda adecuadamente, en lugar de convertirse en el origen de los retrasos en la creación de modelos y su implementación o, mucho peor, en fuente de error y germen de riesgo para las decisiones empresariales.

Post relacionados:

Ver post completo