Las bases de datos relacionales y los cubos OLAP, estrechamente relacionados con las mismas ofrecen, como sabemos, importantes ventajas frente a otro tipo de modelos y estructuras, especialmente para la gestión de datos dinámicos.
Actualmente, sus usos y aplicaciones están ampliamente extendidas, dadas las enormes ventajas que ofrecen para garantizar la integridad y la calidad de los datos, evitar duplicidades en los registros y realizar consultas más eficientes y efectivas, con mayor rapidez y fiabilidad. No obstante, también presentan limitaciones importantes, sobre todo a la hora de gestionar grandes volúmenes de datos y la gran diversidad que presentan, tanto estos como las fuentes de las que proceden, deviniendo casi imprescindible su uso en combinación con tecnologías como Hadoop, una cuestión de la que hemos tratado en anteriores ocasiones.
No obstante, no es solo la cantidad y la variedad de los datos lo que condiciona el uso de una base de datos relacional según el caso; también la tipología de los datos es un importante condicionante a tener en cuenta, muy especialmente en ciertos tipos de gestión de datos e información como la gestión documental.
Sabemos que la gestión documental es una parte importante de las tareas y las actividades de gestión de la información de cualquier organización. Y si hablamos de entidades, organismos e instituciones que trabajan eminentemente con documentos de texto, como bibliotecas, museos, fondos documentales o ciertos departamentos de investigación, el caso es aún más evidente.
Como avanzábamos al empezar, la gestión de datos textuales es una de las limitaciones más importantes que presentan las bases de datos relacionales: explotar la información contenida en documentos de texto empleando un modelo relacional requiere una importante inversión, en tiempo y en esfuerzo, para la planificación y extracción de datos e informaciones consideradas relevantes, una tarea ingente y prácticamente imposible de abordar cuando la cantidad de documentos a tratar es relativamente alta.
El modelo relacional está especialmente indicado para automatizar actividades y gestionar los volúmenes documentales con los que cuenta una organización (préstamos, ingresos, cesiones, localizaciones y/o todos los descriptores que puedan ser transformados fácilmente en campos), pero deviene imprescindible combinar el modelo relacional con otros sistemas adecuados para digitalizar, identificar y extraer el conocimiento albergado en un formato textual.
En este sentido, existen básicamente dos posibilidades: emplear un modelo no relacional (NoSQL), con las ventajas y los inconvenientes que ello implica (entre las primeras, su bajo coste y las facilidades que ofrece a la hora de cargar datos, y entre las desventajas, la calidad de los datos obtenidos, seriamente comprometida, y los problemas de compatibilidad que presenta este modelo con determinados estándares de consulta y con su uso en entornos business intelligence), o el uso de técnicas avanzadas de data mining como las empleadas por herramientas de análisis de última generación.
Para ampliar la información sobre este asunto y reconocer las herramientas más adecuadas que garanticen, entre otras cuestiones, la calidad de los datos obtenidos, recomendamos la guía El proceso y los retos para obtener datos fiables para tu analytics, un recurso completamente gratuito disponible en la sección de ebooks de este mismo blog.
Post relacionados:
Predictive Intelligence: las nuevas herramientas business intelligence
La visualización de datos en la gestión empresarial del conocimiento