Big Data: preparados, listos… ¡ya!

Publicado el 9/11/17 12:10

Las organizaciones que gestionan enormes cargas de trabajo, derivadas de sus aplicaciones Big Data, cuentan con la ayuda de Spectrum Scale File Placement Optimizer (FPO), que ofrece un conjunto de características que amplía la propia plataforma para que funcione sin problemas en el ecosistema de Hadoop.

Mejorado aún más en la versión Spectrum Scale 4.1, este facilitador de alojamiento es una excelente alternativa corporativa al sistema de archivos distribuido (HDFS) de Hadoop a la hora de construir grandes plataformas de datos. Y es que con Spectrum Scale FPO se obtiene toda la funcionalidad de un tradicional sistema de archivos, pero con características adicionales diseñadas para MapReduce y otras cargas de trabajo compartidas.

Spectrum Scale FPO es una implementación de shared-nothing, una arquitectura distribuida en la que cada nodo es independiente y autosuficiente, y en la que no existe un único punto de contención. Se trata de una alternativa a los sistemas que mantienen una gran cantidad de almacenamiento centralizado, ya sea una base de datos, un servidor de aplicaciones o cualquier otro donde se centralice la funcionalidad.

Este modelo es muy conocido en el contexto del desarrollo web, porque ofrece una gran escalabilidad y permite que cada nodo funcione de forma independiente reduciendo el impacto de los fallos. FPO completa la arquitectura principal de Spectrum Scale y viene a proporcionar mayor control y flexibilidad para aprovechar la ubicación de los datos, reducir costes de hardware y mejorar el rendimiento de entrada/salida.

Originalmente desarrolladas para soportar cargas de trabajo de MapReduce, las características FPO incluyen herramientas para soportar datos localmente, gestionar almacenamiento shared-nothing y disponer de un interfaz a Hadoop MapReduce. Y ofrece este acceso a MapReduce sin dejar de soportar POSIX, para que no sea necesario cambiar la forma en que se editan y administran los datos de los archivos cuando se ejecutan cargas de trabajo en ella.

big data.jpeg

Spectrum Scale permite la integración de los datos tradicionales, a la vez que da un paso más en la simplificación del almacenamiento, al permitir el acceso a un pool compatible FPO. Así, es posible agregar un grupo de almacenamiento para MapReduce y utilizar las herramientas de Spectrum Scale para migrar datos automáticamente entre sistemas de disco tradicional y shared-nothing.

Los beneficios, en cuanto a rendimiento de entrada/salida, de MapReduce provienen de aprovechar mejor la ubicación de los datos, manteniendo el acceso de E/S dentro del servidor, en lugar de enviarlos a través de una red. Estas ventajas se basan en su capacidad de crear "fragmentos" de datos que se agrupen y localicen en una región concreta del nodo, para facilitar así su localización.

Además de ello, los clusters shared-nothing requieren una detección y recuperación de fallos mejorada para operar de forma eficiente. En Spectrum Scale la recuperación de fallos se ha mejorado para ofrecer un rendimiento superior y poder tener una comunicación fácil y fluida.

Almacenar datos en Spectrum Scale libera de las limitaciones de la arquitectura HDFS. Porque FPO ofrece extensiones de compatibilidad para reemplazar HDFS dentro de un ecosistema Hadoop, sin que sea preciso realizar cambios en sus aplicaciones.