Al hacer referencia al data hub, lo primero que nos viene a la mente es una herramienta de concentración de datos, con algunas diferencias con los data warehouse pero de una naturaleza tan similar que, muchas veces por desconocimiento, se habla de ellos como si se tratara de expresiones sinónimas.
Ciertamente, en esencia el data hub es una colección de datos procedentes de distintas fuentes, organizados para ser posteriormente distribuidos y compartidos, algo que se asemeja bastante a las características de los almacenes de datos o data warehouse, y a los modelos clásicos de extracción, transformación y carga de datos. Sin embargo, las diferencias entre ambos sistemas son sustanciales, destacando sobre todo las que atañen a las estructuras y las categorías de los datos que se manejan, mucho más flexibles y operables, y a las plataformas de acumulación y convergencia de datos utilizadas por los sistemas data hub.
Aunque, como veremos a continuación, no son estas las únicas diferencias existentes, este primer apunte nos permite presentar los data hub más que en términos de instrumentos o herramientas para el almacenamiento de datos, como nuevos modelo o sistemas de gestión de grandes volúmenes de datos.
El cometido básico de un data hub (a veces también llamado data lake) es permitir a una compañía disponer de una fuente de datos centralizada y unificada que proporcione a los miembros de la organización la información requerida para desempeñar su tarea y tomar las decisiones oportunas, con una rapidez y una flexibilidad mucho mayores.
Esto no es nuevo, por supuesto: los modelos tradicionales de gestión de datos, como los ETL (Extract, Transform, Load) también cumplen con el mismo cometido. Sin embargo, las diferencias atañen más al cómo se gestionan estos datos permitiendo, el data hub, una mayor operatividad, versatilidad y operabilidad, entre otras ventajas.
Mientras los modelos ETL permiten extraer datos de un sistema de origen (un data warehouse alimentado por una o diversas fuentes de datos), transformarlos en el formato adecuado y cargarlos en un sistema de recepción para ser utilizados con propósitos diversos, el modelo data hub carga primero los datos en una plataforma Hadoop a la que, a su vez, las herramientas de análisis y extracción acuden para obtener los datos relevantes para el negocio, evitando así los «cuellos de botella» habituales en los sistemas ETL tradicionales, causados por el movimiento y la latencia de los datos almacenados en el data warehouse, y permitiendo gestionar grandes volúmenes de datos, de una gran variedad, procedentes de distintos sistemas de origen a gran velocidad.
Volumen, variedad y velocidad de datos, las 3 V del Big Data (que, como sabemos, presentan importantes y crecientes retos) que los sistemas data hub permiten explotar al máximo, deviniendo en fuentes inagotables de oportunidades de negocio.
La gestión de los datos de una organización es una de las operaciones más críticas de una compañía: los datos, cada vez más, asumen un papel protagonista entre los principales valores corporativos. Por ello, definir una correcta estrategia de gestión de datos e informaciones lo suficientemente versátil, flexible y eficiente, adoptando los sistemas más adecuados para los intereses y las necesidades de la compañía deviene una cuestión clave y vital.
La guía gratuita 10 claves para definir tu estrategia corporativa de gestión de datos permite adquirir el conocimiento necesario para definir la política corporativa de gestión de datos e información más adecuada, evitar los riesgos asociados a ella, y crear la arquitectura más eficiente y sólida para albergarlos.
Post relacionados:
5 tips para el reporting financiero con IBM Cognos Report Studio
IBM Cognos Active Reports: comparativa de herramientas de movilidad