Cuando se habla de minería de datos, a veces las personas se están refiriendo a los métodos utilizados en este campo, tales como el aprendizaje automático. En otras ocasiones hacen referencia a los datos específicos de interés, como cuando se habla de la minería de texto o la minería de vídeo. También es habitual escuchar el término "big data" para concretar aspectos relacionados con la infraestructura de la minería de datos, tales como Hadoop o Cassandra. Al final, la confusión alrededor del concepto de data mining aumenta y los responsables de negocio se encuentran perdidos ante tanta información contradictoria, sobre todo si están recién llegados a este campo o se hallan haciendo sus primeras incursiones en la minería de datos.
Créditos fotográficos: Stuart Miles
En realidad, ninguna de las perspectivas mencionadas es errónea, sino simplemente carentes de una visión global. Podría decirse que la minería de datos, como área de conocimiento, puede dividirse en cuatro niveles:
La minería de datos ha evolucionado muchísimo en los últimos años gracias a los avances tecnológicos y, hoy día, se trata de un área muy extensa. Prueba de ello son las ofertas de empleo, los perfiles más demandados de la industria y, por supuesto, el aumento de posibilidades a nivel formativo que van apareciendo, a las que hay que sumar la proliferación de conferencias que tienen lugar anualmente en todo el mundo, tanto enfocadas a la metodología desde un punto de vista más técnico, como orientadas al negocio, en las que el tema de data mining se suele tratar de forma conjunta con el análisis.
Para abordar el campo de minería de datos se puede indagar en los algoritmos o métodos aplicados. Clasificando las diferentes posibilidades del área de esta manera se obtienen los siguientes tipos:
A/ Bajo supervisión, también denominado modelado predictivo, toma las siguientes formas:
B/ Sin supervisión, que es el conocido como clustering y puede llevarse a la práctica de las siguientes formas:
Las áreas de la minería de datos también pueden clasificarse en función del formato de datos que se trabaja. De esta forma, pueden encontrarse acciones de data mining orientadas a:
Por último, el recorrido por las áreas de conocimiento de esta disciplina puede completarse con una última agrupación, que divide la minería de datos en función de la forma en que se aplican sus procedimientos, que puede ser:
A/ Estática: cuando se trabaja sobre datos procedentes de bases de datos.
B/ Dinámica: si las acciones de minería se llevan a cabo sobre una secuencia de datos. Ésta suele ser la opción escogida cuando las entradas de información son continuas pero se dispone de poca memoria para el almacenamiento o si el sistema tiene que ser capaz de ofrecer respuestas en tiempo real.
La minería de datos y el aprendizaje automático no eran tan similares como lo son en la actualidad. Sin embargo, a medida que sus semejanzas crecen, también aumenta la confusión entre ambos procedimientos, que muchas personas confunden creyéndolos equivalentes.
Analizando sus principales características es posible encontrar las diferencias que los identifican como entes independientes: