<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=1500086133623123&amp;ev=PageView&amp;noscript=1">

Hadoop y el modelo relacional: un vínculo complementario

Publicado el 21/10/15 8:00

Muchas veces se nos presenta Hadoop, la nueva tecnología de código abierto preparada para almacenar, indizar y analizar ingentes volúmenes de datos difícilmente gestionables (por presentar una variedad compleja, una calidad comprometida o dudosa...), como una alternativa a las bases de datos tradicionales estructuradas según el modelo relacional.

Y, ciertamente, las limitaciones que presentan las bases de datos relacionales y que Hadoop es capaz de resolver son notables e importantes, especialmente ante las nuevas necesidades de almacenamiento, análisis y gestión de datos; no obstante, esto no equivale a que Hadoop sea una herramienta capaz de sustituir al modelo relacional, sino todo lo contrario: teniendo en cuenta los límites que, a su turno y en un sentido distinto, también presenta Hadoop es sencillo concluir, como probaremos enseguida, que la relación que mantienen entre ambos en ningún caso es excluyente, sino más bien complementaria.

modelo_relacional-2

 Descubre los mitos alrededor del concepto de Big Data

 

Hadoop y el modelo relacional: limitaciones y convergencias

Para poder considerar a Hadoop (tanto en su versión open source como las distintas distribuciones de software de gestión avanzada de datos que incluyen esta tecnología) como un complemento óptimo a las bases de datos relacionales, es preciso que en primer lugar entendamos que son perfectamente compatibles entre sí: el uso de Hadoop, pues, no supone la renuncia a una estrategia data warehousing afianzada en el empleo de bases de datos relacionales. Una convergencia que se hace evidente tras visibilizar las limitaciones que, respectivamente, presenta cada caso.

Para el modelo relacional, podríamos resumir sus desventajas del siguiente modo, vinculándolas al incremento exponencial del volumen, la variedad y la complejidad de los datos que una compañía requiere almacenar y gestionar para su posterior análisis: 

  • El coste de gestión aumenta sustancialmente y de un modo directamente proporcional a la cantidad de nuevos datos implementados en las data warehouses corporativas, deviniendo insostenible para un buen número de organizaciones.

  • El incremento del número de fuentes de datos (y el flujo de los mismos) que alimentan constantemente las data warehouses obliga a establecer jerarquías, a ordenar los datos según una prioridad que en muchos casos resulta altamente hipotética, y que relega a un segundo plano datos susceptibles de tener una relevancia prioritaria en posibles consultas futuras.

Todo ello queda resuelto con Hadoop, una tecnología que considera a todos los datos por igual y que reduce los costes de adquisición, gestión y mantenimiento a prácticamente cero. No obstante, a su vez, Hadoop resulta poco aconsejable para cubrir ciertas necesidades de gestión, como (entre otras) la modificación de los datos albergados en las data warehouses mediante actualizaciones, nuevas inserciones o la eliminación de datos previamente alojados en ellas, supuestos en los que recurrir a un sistema relacional resulta mucho más adecuado.

No debemos olvidar que Hadoop es una tecnología en la que se basa un conjunto de herramientas desarrolladas para gestionar grandes volúmenes de datos, de gran variedad y complejidad, pero que de ningún modo representa un sustituto del modelo relacional para la estructuración de bases de datos. Es más, existen numerosas herramientas que facilitan su cada vez más necesaria convergencia. En este sentido, la guía Optimización de entornos analíticos con Big Data, además de ser un recurso completamente gratuito, permite profundizar en la cuestión y entender hasta qué punto el modelo relacional es compatible con la tecnología Hadoop.

Este es el caso de IBM BigInsights, una herramienta de análisis basadoa en Hadoop, que lo mejora consiguiendo que esté listo para el usuario de negocio (“Enterprise Ready”). Se trata de una herramienta de análisis con formato de hoja de cálculo, porlo que su uso es muy sencillo y la curva de aprendizaje es mínima.  

Post relacionados:

 

Recursos sobre Business Intelligence y Gestión de la Información