<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=1500086133623123&amp;ev=PageView&amp;noscript=1">

Minería de datos: áreas de conocimiento, algoritmos y aplicaciones

Publicado el 12/04/16 8:00

Cuando se habla de minería de datos, a veces las personas se están refiriendo a los métodos utilizados en este campo, tales como el aprendizaje automático. En otras ocasiones hacen referencia a los datos específicos de interés, como cuando se habla de la minería de texto o la minería de vídeo. También es habitual escuchar el término "big data" para concretar aspectos relacionados con la infraestructura de la minería de datos, tales como Hadoop o Cassandra. Al final, la confusión alrededor del concepto de data mining aumenta y los responsables de negocio se encuentran perdidos ante tanta información contradictoria, sobre todo si están recién llegados a este campo o se hallan haciendo sus primeras incursiones en la minería de datos. 

mineria_de_datos.jpg

Créditos fotográficos: Stuart Miles

En realidad, ninguna de las perspectivas mencionadas es errónea, sino simplemente carentes de una visión global. Podría decirse que la minería de datos, como área de conocimiento, puede dividirse en cuatro niveles:

  • Metodología básica: en esta categoría se incluyen el aprendizaje automático o la minería de patrón frecuente.
  • Capa de aplicación a datos de diversas procedencias: dependiendo del objeto, es posible encontrarse con minería de gráficos, de textos, de vídeos, en stream, o incluso de voz. De esta forma, se puede indagar en información procedente de redes sociales, de sensores y de datos móviles, entre otros.
  • Capa de infraestructura: donde Hadoop, NoSQL y otros entornos apoyan los flujos de big data y hacen posible su recuperación.
  • Capa de usuario: para maximizar su eficiencia ha de basarse en la comprensión de los perfiles de las personas que dan soporte y se encargan de gestionar todas las operaciones anteriores.

 

  Descarga el ebook "Optimización de entornos analíticos con Big Data"  

 

Áreas de conocimiento en minería de datos

La minería de datos ha evolucionado muchísimo en los últimos años gracias  a los avances tecnológicos y, hoy día, se trata de un área muy extensa. Prueba de ello son las ofertas de empleo, los perfiles más demandados de la industria y, por supuesto, el aumento de posibilidades a nivel formativo que van apareciendo, a las que hay que sumar la proliferación de conferencias que tienen lugar anualmente en todo el mundo, tanto enfocadas a la metodología desde un punto de vista más técnico, como orientadas al negocio, en las que el tema de data mining se suele tratar de forma conjunta con el análisis.

Para abordar el campo de minería de datos se puede indagar en los algoritmos o métodos aplicados. Clasificando las diferentes posibilidades del área de esta manera se obtienen los siguientes tipos:

  1. Minería de reglas de asociación: (aquí se incluye la minería de patrón frecuente): el ejemplo más famoso de este tipo de métodos es el que relaciona la adquisición de latas de cerveza y pañales en una misma cesta de la compra.
  2. Aprendizaje automático: el machine learning puede darse de dos formas distintas:

A/ Bajo supervisión, también denominado modelado predictivo, toma las siguientes formas:

  • Redes neuronales.
  • Árboles de decisión.
  • Regresión logística.
  • Máquinas de vectores soporte.

B/ Sin supervisión, que es el conocido como clustering y puede llevarse a la práctica de las siguientes formas:

  • K-means
  • Maximización de expectativas.
  1. Análisis de series temporales, que se ocupan de descomponer una serie de tiempo en componentes de tendencia, estacionales, cíclicos e irregulares.
  2. Sistemas de recomendación, que se llevan a cabo en base a tres pasos:
  • Pre-procesamiento de datos.
  • Análisis de datos.
  • Interpretación de resultados.

Las áreas de la minería de datos también pueden clasificarse en función del formato de datos que se trabaja. De esta forma, pueden encontrarse acciones de data mining orientadas a:

  • Datos numéricos o categóricos
  • Datos de texto.
  • Datos de audio.
  • Datos de imagen.
  • Datos de vídeo.

Por último, el recorrido por las áreas de conocimiento de esta disciplina puede completarse con una última agrupación, que divide la minería de datos en función de la forma en que se aplican sus procedimientos, que puede ser:

A/ Estática: cuando se trabaja sobre datos procedentes de bases de datos.

B/ Dinámica: si las acciones de minería se llevan a cabo sobre una secuencia de datos. Ésta suele ser la opción escogida cuando las entradas de información son continuas pero se dispone de poca memoria para el almacenamiento o si el sistema tiene que ser capaz de ofrecer respuestas en tiempo real.

 

En qué se diferencia la minería de datos del aprendizaje automático

La minería de datos y el aprendizaje automático no eran tan similares como lo son en la actualidad. Sin embargo, a medida que sus semejanzas crecen, también aumenta la confusión entre ambos procedimientos, que muchas personas confunden creyéndolos equivalentes.

Analizando sus principales características es posible encontrar las diferencias que los identifican como entes independientes:

  • Aprendizaje automático: se ocupa de lograr que una máquina aprenda y se adapte a la nueva información. Para ello utiliza el modelo de red neuronal, el de árbol de decisión y el de regresión logística. Machine learning se relaciona con el estudio, diseño y desarrollo de los algoritmos que proporcionan a las computadoras la capacidad de aprender sin ser programadas de forma explícita, por lo que se trata de técnicas genéricas que pueden aplicarse en diversos entornos.
  • Minería de datos: es la encargada de descubrir conocimiento a partir de bases de datos. Los primeros trabajos de data mining, en la década de los noventa, estaban vinculados a la creación de una mejor instrucción SQL que permitiese trabajar con bases de datos directamente. A través de la utilización de técnicas de aprendizaje automático busca soluciones prácticas a problemas de negocio relacionados con el tamaño de los datos y su velocidad de procesamiento. También es la base de los sistemas de recomendación personalizados y la minería de red.

 

New Call-to-action