Blog de Analytics

Las tres «V» de Big Data Analytics, más vigentes que nunca

Escrito por Logicalis | 18/01/18 7:08

Los sistemas y herramientas que permiten manejar ingentes volúmenes de datos, tanto estructurados como no estructurados, son uno de los fenómenos tecnológicos actuales. El mercado ya ha asumido la necesidad de contar con plataformas que faciliten las tareas de administración y seguridad que requiere un Big Data y muchas de las organizaciones actuales están ampliando o completando sus infraestructuras para responder a los tres grandes retos relacionados con este ingente volumen de datos que debe manejarse y que se resumen en las tres «V» de un sistema Big Data: volumen, velocidad y variedad de los datos.

Los expertos vaticinan un montante global de más de 40 billones de gigas de datos manejados en 2020, como pronóstico más generalizado. Este inmenso mar de datos, estructurados o no, debe ser gestionado por nuevas herramientas que ofrezcan respuestas comerciales y estratégicas a partir de esta información. Y deben hacerlo de forma rápida, si queremos que su aportación sea lo más útil posible.

Partiendo de Hadoop, el sistema de código abierto que más se utiliza para almacenar, procesar y analizar grandes volúmenes de datos (cientos de terabytes, petabytes o incluso más) y que permite almacenar toda clase de datos, estructurados o no, archivos de registro, imágenes, video, audio, comunicación, etc.

Sobre él, se están construyendo herramientas, que aporten respuestas con mayor rapidez y que introduzcan un uso iterativo y ágil del mar de datos que atesora la organización actual. Esto exige cuantiosas inversiones en infraestructura, personal y formación que, pero además hace recomendable establecer una relación más estrecha entre la empresa y su departamento de TI.

La clave, como en los orígenes de Big Data, reside en dar respuesta a las tres grandes «V» mencionadas. La «V» de volumen es quizás la más evidente y clara, ya que hablamos de procesar tal cantidad de datos que supera con creces la capacidad de proceso de un simple host.

Hadoop ha resuelto este aspecto en gran medida, al ofrecer un framework que permite el procesamiento de grandes volúmenes de datos, a través de clusters, usando un modelo simple de programación. Además su diseño permite pasar de pocos nodos a miles, de forma ágil, gracias a su arquitectura, llamada Master-Slave, de archivo distribuido. Gracias a su diseño, se reduce la E/S en la red, y su escalabilidad y disponibilidad se potencian exponencialmente.

En cuanto a la variedad de estos datos, las empresas, con entornos complejos y heterogéneos, ya no desean adoptar un punto de acceso aislado a su Business Intelligence, para una sola fuente de datos (Hadoop). Las respuestas a sus preguntas proceden de muy diferentes fuentes, desde sistemas de registros y almacenes de datos en la nube, hasta datos estructurados y no estructurados, incluidos en fuentes de Hadoop o de otro tipo.

Se exige un análisis de todo tipo de datos y por ello están prosperando las plataformas compatibles con múltiples tipos de datos y fuentes, con lo que pueden quedarse en el camino aquéllas que están diseñadas para utilizarse solo con Hadoop y que no sirvan para diferentes casos de uso. El retiro de Platfora es un indicio temprano de esta tendencia.

Por último, la velocidad sigue siendo prioritaria en este ambiente y, en especial, en lo que se refiere a la velocidad del SQL interactivo. Al fin y al cabo, SQL es el medio utilizado por los usuarios corporativos que desean acceder a datos de Hadoop, para generar dashboards de KPI más rápidos e iterativos, además de realizar análisis exploratorios.

 

 

Esta necesidad de velocidad está impulsando la adopción de bases de datos más rápidas, como Exasol y MemSQL, almacenes basados en Hadoop, como Kudu, y tecnologías que permiten realizar consultas más ágiles.

Con el uso de motores SQL en Hadoop (Apache Impala, Hive LLAP, Presto, Phoenix y Drill) y tecnologías OLAP (ATScale, Jethro Data y Kyvos Insight), estos aceleradores de consultas están desdibujando aún más las líneas divisorias entre almacenes de datos tradicionales y el mundo del Big Data Analytics, lo que también es una tendencia cada vez más acusada y que dará que hablar en los próximos meses.