Blog de Analytics

Minería de datos en tiempo real

Escrito por Logicalis | 6/03/16 7:00

Aunque la minería de datos lleva desde los años setenta siendo una de las áreas de conocimiento de la estadística, no es hasta finales de la década de los noventa cuando puede hablarse de data mining inteligente, más en línea con la actividad tal y como se conoce hoy día. Sin embargo, pese a lo profundo de sus raíces, la minería de datos sigue siendo tendencia y se diferencia de otras capacidades en relación con la gestión de datos, al hallarse entre las prioridades de los procesos de reclutamiento, a la hora de seleccionar nuevos candidatos.

Créditos fotográficos: istock zhudifeng

Hace un par de años, el informe de LinkedIn que destacaba a las habilidades más buscadas, ponía en el número uno al combo de análisis estadístico y minería de datos. En 2016, está todavía encabezando la lista, aunque ya en segunda posición, sólo superada por la computación distribuida y en la nube. En plena transformación digital de las empresas, el mundo en que vivimos está cada vez más impulsado por los datos y las organizaciones necesitan de expertos en almacenamiento de datos, recuperación y análisis.

  

Aplicaciones de minería de datos

La minería de datos intenta extraer valor de la información a través de distintas aplicaciones, entre las que destacan:

  • Redes neurales: clasificación y secuenciación.
  • Clustering: segmentación de mercado o comunidades de social networks.
  • Clasificación por segmentación: filtros de spam y análisis de sentimiento de Twitter.
  • Minería en tiempo real: recomendaciones de compra o market basket mining.

Precisamente esta última está ganando en importancia en la nueva era, dadas las posibilidades de la interacción de las empresas con big data y el nivel de exigencia al que se ha sometido a la toma de decisiones hoy día. La aceleración de los negocios hace necesario ser capaz de tomar acción en tiempo real y, para eso, hace falta poder contar con un buen conocimiento de la situación, que minimice el riesgo de errores.

Esta evolución ha hecho que el enfoque de minería de datos real time se vea impulsada, relegando a un segundo plano la concepción más tradicional de data mining que se basaba en la creación de modelos a través del análisis de muestras de datos o de registros históricos. Hoy día es preciso que la introspección en la información se dé a ritmo de streaming para poder dar soporte a la estrategia de negocio en lo concerniente a:

  • Análisis del tráfico web para las acciones del marketing online en tiempo real.
  • Detección del fraude en transacciones en línea.
  • Minimización del riesgo en las operaciones financieras e intercambios comerciales.

Para conseguirlo, es preciso contar con el soporte de fuentes de grandes datos como son los sensores o los satélites. Ambos, con velocidades extremas y una fiabilidad máxima, permiten ganar en precisión y rapidez aunque, al mismo tiempo, complican la maniobrabilidad de las compañías al dificultar la selección de muestras representativas del global de datos, por tratarse de volúmenes impracticables. No obstante, los avances han salvado estos obstáculos gracias a acciones como el muestreo múltiple o la implementación de técnicas cuantitativas auto-optimizadas, que a través del aprendizaje automático consiguen resolver muchas de estas situaciones.

Según Big Data Stream Minning Tutorial, el enfoque estándar ya no es suficiente para tratar con big data analytics en las condiciones que se precisan hoy día. Recoger, limpiar, modelar y realizar el despliegue de la información es un proceso que no puede dar de sí, ni en cuanto a su escalabilidad ni en cuanto a su velocidad de respuesta, para adaptarse a los requisitos de negocio actuales. Continuar con este tipo de métodos es desperdiciar el valor de los datos y, por eso, la minería de datos debe adaptarse a los nuevos tiempos para poder exprimir las posibilidades de big data.

La nueva corriente de data mining:

  • Es capaz de mantener modelos en línea.
  • Permite incorporar datos sobre la marcha.
  • Se adapta a conjuntos de entrenamiento sin límites.
  • Es efectiva a la hora de detectar cambios y ajustarse a ellos.
  • Proporciona modelos dinámicos.

Actualizaciones de Twitter, estados de Facebook, transacciones realizadas online usando tarjetas de crédito, imágenes posteadas en Flickr o Instagram, búsquedas lanzadas a los motores online, emails intercambiados y clicks de los usuarios son sólo algunas de las fuentes de datos que no dejan de generar registros cada segundo.

Sin embargo, hay que tener en cuenta que esta minería de datos en tiempo real o streaming data mining optimiza su valor cuando se aplica a la búsqueda de soluciones aproximadas dentro de un margen de tiempo limitado y haciendo un uso muy coherente de los recursos disponibles. Para generar conocimiento de mayor valor en el largo plazo, sobre asuntos críticos desde el punto de vista estratégico o en materias que no requieran de una solución en cuestión de segundos, merece más la pena e trabajo en base a algoritmos para la clasificación, regresión o clustering, por ejemplo. Y, desde el plano práctico, se pueden emplear sistemas de computación simple para trabajar con streams de volúmenes reducidos pero, siempre que se escale, hay que plantearse el optar por sistemas distribuidos.

 

Post relacionados: