Un Data Lake es lo más parecido a una versión mejorada del data warehouse que permite el almacenamiento y procesamiento de datos en grandes volúmenes. A diferencia de lo que sucedía en aquél, el lago de datos permite que los datos se recojan de forma directa, en formato nativo y sin ser sometidos a ninguna transformación previa, antes de que los conjuntos de datos se utilicen con fines analíticos.
Créditos fotográficos: valio84sl
Cuando se piensa en implementar una solución como ésta existen dos opciones, construir un data lake propio u optar por alguna de las soluciones Data Lake-as-a-Service que existen en el mercado.
Ambas proporcionan a la organización un potencial muy elevado de procesamiento de datos en la nube que le permite obtener resultados empresariales más rápidos y, sobre todo en el último caso, también de una manera muy rentable.
Procesamiento de datos en el warehouse o en un data lake
Los lagos de datos se utilizan a menudo para recopilar datos en bruto antes de que los conjuntos de datos transiten hacia un entorno analítico de producción, como puede ser un almacén de datos. Las principales diferencias entre el data warehouse y el data lake son dos:
- La estructura de los datos recogidos: si en el almacén tradicional los datos son sometidos a procesos ETL para asegurar que adquieren el formato idóneo y están estructurados de la forma adecuada antes de quedar guardados, en el data lake este paso no es necesario. Se gana tiempo (al minimizarse el tiempo de carga) y se optimiza el aprovechamiento de recursos ya que, en función de las necesidades del usuario final, se estructurarán de una forma u otra.
- El modo en que están almacenados: los requisitos de procesamiento previo y el rendimiento analítico también son diferentes El data warehouse se basa en la tecnología de base de datos relacional, que sólo puede almacenar datos coherentes y estructurados; mientras que el data lake se basa en tecnologías que permiten almacenar datos sin procesar y luego aplicar incrementalmente la estructura, según lo definido por los requisitos analíticos.
Las características del lago de datos a menudo incluyen velocidades de ingesta y escritura rápidas, así como un almacenamiento de bajo coste, puesto que está diseñado para gestionar la variedad, velocidad y volumen que caracterizan el Big Data. Estamos hablando de millones de registros diarios.
Además de estas diferencias, hay que aclarar que el fin de cada uno de estos métodos de procesamiento de datos también varía un poco. El Data warehouse está más orientado a facilitar la interacción del usuario de negocio medio, mientras que el data lake podría considerarse como la herramienta idónea para los perfiles de la organización más técnicos que buscan un medio para explotar al máximo las capacidades analíticas. No se trata, no obstante, de formatos excluyentes. Un científico de datos puede valerse de un data warehouse para su investigación (como así han estado haciendo estos unicornios durante un tiempo), igual que un usuario de cualquier departamento de negocio, como ventas, servicio pos venta o contabilidad podría sacar partido a la agilidad de data lake para impulsar su productividad. Si hay que observar alguna precaución sería la relativa a la complejidad de la interacción, que en el caso del lago de datos aumenta en comparación con el warehouse.
¿Cómo podemos extraer, procesar y analizar datos de programas como Google, Salesforce o Drive? Si también quieres respuestas a las preguntas de negocio de forma automatizada y visual, te recomendamos la herramienta de Watson Explorer de IBM que construye tableros o infografías sin esfuerzo para una mejor definición de tus objetivos y análisis de datos predictivo en la nube.
Cómo elegir entre las distintas opciones de data lake para el procesamiento de datos cloud
El lago de datos implica varias ventajas:
- Fácil escalabilidad para grandes volúmenes de datos.
- Almacenamiento económico (algo necesario para gestionar el procesamiento de datos que proceden de fuentes como sensores, aplicaciones móviles o medios sociales).
- Mayor agilidad de cara al análisis.
Aunque no todo es positivo. Por eso, entre sus inconvenientes cabe destacar los siguientes:
1. Puede ser difícil de aprender e instalar, lo que supone una barrera para el usuario final.
2. El mantenimiento que se necesita para dar soporte al software utilizado para los lagos de datos en un entorno cloud también está revestido de complejidad.
3. Si no se logra una buena integración con el data warehouse existente se estará perdiendo la oportunidad de exprimir las posibilidades que ofrece (ya que para poder explotar su potencial, antes hay que nutrirlo de datos).
El Data Lake-as-a-Service aprovecha los recursos de la nube para el procesamiento de datos y está gestionado por un proveedor de servicios que también se encarga de su mantenimiento. Todo esto logra restar complejidad al uso de la plataforma subyacente y las capas de infraestructura, por lo que una empresa puede usar un lago de datos sin tener que instalar o mantener la propia tecnología.
No todos los data lake-as-a-service son iguales y, aunque suelen incluir capacidades como aprovisionamiento automatizado, almacenamiento de datos escalable, niveles variables de funciones analíticas o interfaces simplificadas para la administración; la propuesta final varía en función del proveedor. Al elegir es importante atender a la configuración de seguridad y a la integración.
Por su parte, la construcción de un data lake propio es también una opción a valorar, y es la elegida por muchas organizaciones para el procesamiento de datos cloud. Sin embargo, pese a que en lo concerniente a seguridad se sale ganando, para poder convertir este objetivo en realidad es preciso contar con profesionales muy especializados en plantilla. No sólo eso, sino que valorar esta opción implica tener en cuenta la necesidad de llevar a cabo una inversión inicial bastante importante, que, por supuesto, deberá ir seguida del gasto necesario para asegurar el mantenimiento que preserve el adecuado nivel de funcionamiento y rendimiento del sistema.
¿Cuál es la mejor opción? Cada organización deberá decidirlo por sí misma aunque, en lo que respecta al procesamiento de datos en el cloud, el data lake es el futuro.