Big Data es un valor para las empresas, pero su uso, que obedece a un imperativo de mercado, más que a una necesidad, requiere de la presencia de Hadoop, única solución realista a la gestión de datos, también a tener en cuenta en proyectos de Data Warehouse.
Big Data ha de ser incorporado al entorno analítico de negocio y de Data Warehouse. Pero para hacerlo quizás sea necesario adentrarse en su comprensión. Para ello, Big Data puede abordarse desde la tetra-dimensión de sus facetas:
- Datos en reposo: los datos listos para ser procesados, toda esa información con la que ya se cuenta puede ocupar volúmenes que alcancen incluso los exabytes y que obligan a plantearse necesidades de almacenamiento y gestión extra.
- Datos en movimiento: la creación y el procesamiento de datos es un flujo continuo que, por las características el entorno competitivo actual, requiere de respuesta en lapsos de tiempo no superiores a los milisegundos. Los datos han de ser gestionados en tiempo real, según se generan, sin esperar a ser almacenados. Ejemplo de ello son los sensores, la información de fraude, etc. y la solución IBM Infosphere Streams.
- Diversidad de datos: los datos que serán objeto de análisis están almacenados en diferentes fuentes de muy diversa tipología (información de logs, facebook, twitter, etc.), ello proporciona una riqueza de análisis sin precedentes que resulta en una fotografía extraordinariamente realista y detallada de la situación de la empresa en el momento actual.
- Datos dudosos: es la cara más oscura de Big Data. Esta incertidumbre obedece a dos factores, la inconsistencia y la falta de completitud de los datos que puede ser originada por latencias, ambigüedades, interpretaciones o errores humanos. Recuperar o ganar la integridad en estos volúmenes de información requiere de una estrategia de gestión de datos adecuada.
Distinguir el aporte incalculable de Big Data para la empresa es reconocer la trascendencia de Hadoop, concepto que implica:
- Un framework de desarrollo y un entorno de ejecución para realizar aplicaciones capaces de procesar gran volumen de datos (Big Data).
- La generación de aplicaciones de tipo batch y de lectura intensiva.
- La tecnología de Google como base.
- La reducción absoluta de costes como cualidad, ya que es open source (gratuito): Apache Hadoop http://hadoop.apache.org/
Tanto en su vertiente Hadoop (open source) como IBM BigInsight (Hadoop Empresarial), Big Data no puede ser concebido sin su existencia. Y es que Hadoop no es un sistema gestor de base de datos, es un entorno de desarrollo que de ninguna manera pretende sustituir los Data Warehouse actuales.
Las aplicaciones generadas usan CPU y disco de ordenadores de tipo “commodity”, lo que lleva implícito un bajo coste. Las aplicaciones funcionan en Cluster de muchos equipos trabajando en paralelo. La ventaja es que se pueden añadir o sustituir equipos deteriorados por otros nuevos sin cambiar las aplicaciones, y sin tener que hacer transformaciones en el modo en que se cargan los datos, ya que ni siquiera tiene porqué afectar a sus formatos. Un plus de beneficio que reviste de optimización los proyectos de Data Warehouse.