Dataset – Grupo PAI HUM 1000: Historia de la Globalización: violencia, negociación e interculturalidad

Se ha diseñado una Dataset NoSQL, que gestiona datos semi-estructurados y orientado a documentos, destinada al almacenamiento y consulta flexible de datos de personajes históricos y las relaciones entre éstos. Este diseño permite su adaptación a los posibles cambios producidos durante la investigación histórica de forma rápida y con bajo coste.

El modelo de Dataset está formado por una colección principal de documentos denominada Nobility. Dentro de esta colección, encontramos los documentos denominados Person, los cuales representan a personajes históricos y cuya estructura base cuenta con una lista de 23 atributos y cuatro arrays de subdocumentos. Al ser una Dataset semi-estructurados, se cuenta con la flexibilidad para modificar esta estructura base siempre que sea necesario.

Cada documento Person se puede relacionar con otros documentos del mismo tipo a través de dos de sus atributos: idFather e idMother, las cuales contienen el identificador único del personaje histórico que es su padre y madre, respectivamente. Esto permite poder crear la estructura jerárquica de la genealogía de cualquier personaje almacenado en la Dataset.

A su vez, cada documento Person se relaciona con 4 posibles tipos de documentos a través de los arrays mencionados anteriormente, por lo que en este diseño se dan los dos tipos posibles de relaciones incluidos en las bases de datos orientadas a documentos (embedded documents y referenced documents).

La Dataset se encuentra alojada en la infraestructura en la nube de la empresa MongoDB (Atlas). Actualmente, el acceso se hace en remoto desde los equipos de los investigadores. En un futuro, se desplegará la Dataset en una entidad pública relacionada con la investigación científica y será accesible a partir de un entorno web, disponible para los investigadores que quieran consultar los datos, para los desarrolladores o para el público en general.

Esta Dataset supone una innovación con respecto a la forma de trabajar en proyectos de investigación histórica. Hasta ahora la mayoría de las bases de datos utilizadas en proyectos de investigación histórica son Relacionales. En un estudio llevado a cabo en el seno del proyecto Atlantocracies se llevó a cabo una encuesta sobre las características técnicas de las bases de datos usadas en 37 proyectos internacionales de prestigio relacionados con la historia. Más del 70% de dichas bases de datos eran Relacionales. Solo el 9% eran bases de datos NoSQL, siendo en su totalidad del tipo orientadas a grafos. Es decir, presumiblemente el modelo de Dataset que presentan los autores es el primero orientado a documentos usados para este tipo de investigaciones.

La mayor ventaja y diferencia, con respecto a las otras soluciones propuestas, está en la gran flexibilidad que proporciona. La investigación histórica es cambiante. A medida que se van explorando las fuentes de información, surgen nuevos atributos, objetivos y preguntas, haciendo que los datos recopilados de cada objeto de estudio puedan variar constantemente. Las bases de datos orientadas a documentos permiten llevar a cabo un procesamiento flexible de los datos. Para nuestro caso concreto, aunque los personajes históricos cuentan con una estructura de atributos básica, dicha estructura puede ser modificada/ampliada/reducida siempre que sea necesario. De tal forma que, cada personaje histórico almacenado puede tener una estructura interna totalmente diferente. Al contrario, en los modelos Relacionales, las tablas tienen una estructura fija que han de seguir todas las inserciones y cuya modificación supone una gran inversión de tiempo, esfuerzo y dinero. Así, el modelo presentado puede adaptarse de forma rápida y sencilla a cualquier fuente de información relacionada con personajes históricos. De la misma forma, el sistema gestor de Dataset escogido tiene la potencia necesaria para poder llevar a cabo todas las consultas que sean necesarias para la extracción de información y conocimiento.