Blog de Analytics

Data quality: limpieza de datos procedentes de redes sociales

Escrito por Logicalis | 17/08/15 6:00

Hemos visto en anteriores ocasiones cómo, hasta qué punto y por qué la calidad de datos, o data quality desempeña cada vez un papel más central en la consideración de los datos que posee una organización.

No olvidemos que los datos, especialmente en contextos Business Intelligence y de analítica avanzada, devienen uno de los activos corporativos que mayores oportunidades de crecimiento y expansión, apoyo a la toma de decisiones y ventaja competitiva puede ofrecer, y que prestar atención a la calidad de los mismos, sobre todo a los procedentes de fuentes como las redes sociales (fuentes que aportan gran variedad y volumen de datos, a gran velocidad, pero a menudo con una calidad mermada o comprometida de algún modo) deviene una cuestión crítica para sacarles el máximo partido.

 

Data quality: la importancia de la calidad en datos procedentes de redes sociales

Se estima que más del 90% de las empresas consideran a los datos piezas fundamentales para desarrollar su modelo de negocio, minimizando riesgos y maximizando el aprovechamiento de oportunidades, pero que prácticamente el 70% de ellas carece de instrumentos necesarios para hacerlo. Es decir, solo un 30% de las organizaciones empresariales dispondrían de las herramientas necesarias para sacar el máximo provecho a sus datos, un problema que se incrementa a medida que aumenta el volumen y la variedad de los datos alojados en las bases corporativas.

El concepto de calidad de los datos entra poderosamente en juego en esta consideración que, como hemos reseñado en otros momentos, presenta una doble faceta. Por un lado, está lo que comentábamos hace un momento, y la consiguiente necesidad de que los datos albergados en las data warehouses corporativas y las herramientas para estructurarlos, analizarlos y transformarlos en información sensible para la organización respondan a un enfoque adecuado y coherente, a una estrategia corporativa de gestión de datos que permita sacarles el máximo partido. En este sentido, recomendamos la guía 10 claves para definir tu estrategia corporativa de gestión de datos, disponible completamente gratis en la sección de ebooks de este mismo portal.

Por otro lado, claro está (y lo que hoy nos interesa tratar), está la calidad de los mismos datos, es decir, que sean completos, se evite su duplicidad, se dispongan las herramientas necesarias para asegurar el máximo grado de veracidad posible... y, por supuesto, tomar medidas efectivas para limpiar los datos que puedan causar algún conflicto a la hora de someternos a análisis.

Entre los motivos principales que pueden comprometer la calidad de los datos procedentes de las redes sociales, y que deben ser considerados de distintos modos a la hora de configurar los filtros pertinentes (uno de los modos más efectivos de llevar a cabo una limpieza de datos adecuada), están:

  • La consistencia: los datos que provienen de fuentes social media suelen presentar una integridad escasa y un nivel de contradicción bastante alto, fruto del propio dinamismo con el que las redes sociales operan (y, consiguientemente, con el que aportan nuevos datos).

  • La integridad: las anomalías de los datos obtenidos a través de canales social media suelen ser bastante altas.

  • Unicidad: una cuestión clave, ya que se refiere en primera instancia a la no duplicidad de los datos (algo que se da con frecuencia, comprometiendo a veces seriamente la data quality y, con ello, las métricas obtenidas con los datos de las social media).

 

 

Post relacionados: