<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=1500086133623123&amp;ev=PageView&amp;noscript=1">

Control de calidad en áreas críticas para la fiabilidad del dato

Publicado el 3/10/15 8:00

Hay muchas maneras de evaluar la calidad de los datos analíticos en términos de precisión, exactitud, representatividad, exhaustividad y sensibilidad en relación con el uso para el que se prevé que se destinen. El control de calidad ayuda a lograr mejores resultados en estas evaluaciones y, por tanto, a optimizar la toma de decisiones y reducir el riesgo.

iStock_000061847494_Small

Créditos fotográficos: istock tuan_azizi

Presupuestación: Características, técnicas y reporting

En general, hay dos tipos de errores que pueden darse en un conjunto de datos:

1. Errores de comisión: son el resultado de datos incorrectos o inexactos que se incluyen en el conjunto de datos. Pueden aparecer debido a fallos durante el proceso de entrada, entre otros.

2. Errores de omisión: se originan a partir de datos o metadatos que se han dejado de incluir. Las situaciones que dan lugar a este tipo de errores tienen que ver con la falta de documentación de los datos, errores humanos durante la recolección o la entrada de datos, o la presencia de anomalías en el campo que afectan a los datos.

El control de calidad es el conjunto de acciones que ayuda a evitar errores de entrada o generados a posteriori en un conjunto de datos. Estas actividades garantizan la calidad de los datos y su idoneidad para el uso y el análisis, además de facilitar el seguimiento y el mantenimiento de los estándares de data quality exigidos a lo largo de su ciclo de vida.

El análisis web, por su importancia estratégica y las entradas manuales de datos, por su tendencia a presentar errores, son las dos áreas más críticas en términos de control de calidad y donde este tipo de técnicas deben aplicarse extremando la precaución.

 

Control de calidad y análisis web

Los datos son un activo insustituible a la hora de obtener una instantánea de la realidad online del negocio. Gracias a ellos, se pueden descubrir diferentes problemas a que los usuarios se enfrentan en la web corporativa, se comprende mejor su comportamiento y pueden preverse las intenciones de clientes y clientes potenciales.

Los datos generados por los distintos canales de que dispone el negocio en internet proporcionan pistas importantes y señales que mejoran la capacidad de aprendizaje, ayudando a facilitar el proceso de toma de decisiones. Sin embargo, los datos no son siempre una representación fiel de la realidad; a veces, incluso, pueden alejarse (y alejar al negocio) de la verdad o de una interpretación correcta de los hechos. Esto sucede cuando existen problemas de control de calidad sin resolver.

Una disminución en la calidad de los datos puede inducir a error a los analistas de datos y dar lugar a una valoración incorrecta de una situación. Un escenario de este tipo debe evitarse a toda costa ya que, no sólo quedaría en entredicho la habilidad del analista o el significado de los datos implicados, sino que se cuestionarían todos los informes, todos los análisis y todas las decisiones tomadas hasta la fecha.

Para prevenir este tipo de situaciones y sus consecuencias, los datos deben ser sometidos a un control de calidad exhaustivo antes de cualquier trabajo de análisis web que se vaya a llevar a cabo. Esta exhaustividad no implica que se deban desechar los datos que no sean precisos al cien por cien, ya que lograr estas cifras implicaría un coste del todo injustificable, sino que hay que aproximarse a este objetivo lo más posible, dentro de los límites de la coherencia. Y, para ello, nada mejor que aplicar las siguientes recomendaciones:

1. Comprobar que el número de páginas auditadas es lo más cercano posible al número de páginas de que se compone el sitio web corporativo: la presencia de una diferencia significativa supondría que, bien se han marcado páginas nuevas para el control de calidad, bien se ha eliminado alguna etiqueta de ciertas páginas, por lo que, en cualquiera de los casos, resultaría necesario hacer una comprobación más en profundidad.

2. Vigilar la evolución de los accesos directos: si se aprecia un incremento sin motivo aparente que, de forma repentina, se produce en el número de accesos directos, podría significar que una campaña se ha etiquetado incorrectamente o no se ha etiquetados en absoluto.

3. Asegurarse de que el volumen de ventas rastreado por la herramienta de análisis web coincide o es prácticamente el mismo que el indicado por la herramienta de gestión utilizada: si existen diferencias puede ser síntoma de que los análisis del ROI las campañas de marketing no reflejan la realidad y se precisa un mejor control de calidad.

 

Las mejores prácticas para el control de calidad en entradas manuales

Si bien en el análisis web todo lo referente a los datos está automatizado, en muchas otras perspectivas del negocio se siguen llevando a cabo entradas manuales de datos. Precisamente es en este tipo de prácticas donde el control de calidad es más importante y, para aplicarlo de forma correcta, hay que tener en cuenta:

1. En primer lugar, antes de la recogida de datos:

  • Pensar en la definición y aplicación de las normas de calidad que se utilizarán durante la tarea a realizar.
  • Considerar el tipo de formatos que se utilizarán para las tablas de datos ola forma de entrada de datos escogida.
  • Si se emplearán abreviaturas o códigos, deben ser definidos desde el principio (suele ser recomendable un glosario de negocio).
  • Tanto unidades de medida, como metadatos relevantes también deben especificarse antes de la recogida.
  • Asignar la responsabilidad sobre la calidad de los datos (preferiblemente a la misma persona que se ocupará de su recogida, que habrá sido formada y cualificada en control de calidad y métodos de garantía).

2. Durante la entrada de datos:

  • Considerar el uso de técnicas que ayuden a eliminar (o minimizar) los errores durante el ingreso de datos.
  • Intentar automatizar la recogida, siempre que sea posible.
  • Si se están utilizando hojas de cálculo o bases de datos, hay que escoger cuidadosamente su diseño antes y durante la entrada de datos.
  • Si se emplean bases de datos, restringir lo que se puede introducir en cada campo (configurándolo, por ejemplo, para aceptar sólo texto, o valores numéricos, un número máximo de caracteres o un rango de valores).

3. Después de la entrada de datos:

  • Es el momento de tomar medidas básicas de control de calidad. Si los datos se han compilado en hojas de cálculo o bases de datos, hay que asegurarse de que se alinean en sus columnas adecuadas. También hace falta comprobar que no existen valores perdidos, imposibles, o anómalos (una forma de hacerlo es ordenando los campos de datos para comprobar si existen discrepancias).
  • Si se lleva a cabo la transformación de datos para el análisis, es preciso siempre llevar a cabo una comparación de los resúmenes estadísticos antes y después de la transformación para asegurar que no se cometieron errores durante el proceso ETL.
  • Otra de las estrategias para el control de calidad de los datos es la búsqueda de los valores extremos. Los valores atípicos son valores extremos de una variable que se encuentran fuera del modelo estadístico que se utiliza para describir los datos (los métodos gráficos suelen resultar extremadamente útiles en esta empresa, debido a la rapidez de identificación que permiten las técnicas de visualización).

Estas estrategias de control de calidad ayudan a evitar errores que, de otra forma, podrían pasar al sistema, contaminando los resultados de los análisis y afectando a la toma de decisiones.

 

Post relacionados:

 

Recursos sobre Business Intelligence y Gestión de la Información