Print Friendly

 

Beretta, Francesco, Laboratoire de recherche historique Rhône-Alpes, Université de Lyon, France, francesco.beretta@ish-lyon.cnrs.fr
Vernus, Pierre, Laboratoire de recherche historique Rhône-Alpes, Université de Lyon, France, pierre.vernus@ish-lyon.cnrs.fr
Hours, Bernard, Laboratoire de recherche historique Rhône-Alpes, Université de Lyon, France, bernard.hours@univ-lyon3.fr

Le but de ce poster est de présenter le Système modulaire de gestion de l’information historique (SyMoGIH), un projet né en 2007 qui a développé une méthodologie permettant la mise en place d’une plateforme collaborative et cumulative de stockage et d’exploitation de l’information géo-historique (cf. http://larhra.ish-lyon.cnrs.fr/Pole_Methodes/SyMoGIH_fr.php et http://halshs.archives-ouvertes.fr/halshs-00677658). Il s’agira en particulier de présenter la méthode de modélisation adoptée par le projet SyMoGIH, méthode qui a permis la mise en place d’un système d’information collaboratif, ouvert à accueillir tout type d’information géo-historique.

Le projet SyMoGIH est né de la volonté d’utiliser les nouvelles technologies afin de mutualiser les données produites par les recherches individuelles des historiens, données souvent perdues après la publication des travaux qu’elles documentent, et aussi celles produites par des projets financés par l’Agence nationale de la recherche française, dont deux étaient en cours à l’époque au sein du Laboratoire de recherche historique Rhône-Alpes (CNRS-Université de Lyon). L’apprentissage du langage de modélisation ERD (entity-relationship diagrams) et la collaboration avec des collègues professeurs d’informatique a permis de mettre en place un système collectif d’alimentation de bases de données. L’intégration d’un module de cartographie et d’analyse spatiale pour prendre en compte la dimension spatiale des données historiques et la volonté de disposer d’un système plus robuste ont conduit à l’adoption du système de gestion de bases de données (SGDB) PostgreSQL avec son extension PostGIS.

Le but du projet n’est toutefois pas de produire un nouveau logiciel mais de mettre à la disposition d’une communauté d’utilisateurs une plateforme ouverte et évolutive permettant le stockage collaboratif et cumulatif de l’information. Une trentaine d’utilisateurs et cinq projets collectifs sont hébergés actuellement dans la base de données du projet. Notre but est de mettre les outils digitaux au cœur de la recherche historique selon une démarche qui vise à élargir progressivemnent le nombre d’utilisateurs et qui met l’accent sur la formation des étudiants : une dizaine de travaux de master ont abouti grâce à l’utilisation de la méthode SyMoGIH, quelques doctorats sont en cours tandis que les enseignants et chercheurs du Laboratoire qui le souhaitent peuvent utiliser la plateforme commune pour héberger leurs propres données. Une charte d’utilisation, réglant les droits et obligations des utilisateurs, permet de gérer les questions délicates de la propriété et de l’exploitation des données.

Le poster se propose de présenter les fondements de la méthode de modélisation développée au sein du projet SyMoGIH, ainsi que les types d’exploitation auxquels peuvent être soumises les données collectées. Seront évoquées questions délicates que doit affronter l’historien souhaitant construire un système d’information utilisable pour sa recherche personnelle mais en même temps ouvert à un travail collaboratif : faut-il stocker des textes ou des données extraites des textes ? Faut-il enregistrer toutes les informations contenues dans un texte ou seulement celles liées à la recherche en cours ? Comment articuler la spécificité de la recherche individuelle avec la mutualisation des données et leur réutilisation pour d’autres recherches ?

Le système d’information mis en place comprend deux volets : l’un reproduit les informations telles qu’elles se trouvent dans les documents ; l’autre construit, par un affinement progressif et par le croisement des sources, des informations telles qu’elles se présentaient effectivement dans le monde historique étudié. En termes de choix technologiques, nous avons d’abord opté pour un système de bases de données relationnelles. Un travail de recherche important a été conduit pendant deux ans pour la mise en place d’un méta-modèle ouvert permettant de produire une modélisation documentée et perfectible de toute information géo-historique qu’on souhaite stocker. La mise en place de ce méta-modèle grâce à la modélisation ERD sera présentée en détail, ainsi que la distinction fondamentale introduite dans la construction des données entre un niveau ‘objectif’, visant le stockage collectif des informations, et un codage lié à la problématique de recherche individuelle ou d’un projet.

De plus, l’intégration de la dimension spatiale de la recherche a amené à la mise en place d’un gazetteer permettant de recenser et de localiser tout type de lieu ou de territoire, y compris dans son évolution diachronique. Enfin, la conception du système a visé une ouverture multidisciplinaire et multiculturelle, permettant de stocker toute information sous forme de texte typé par un code de langues selon la norme ISO 639-3.

Cette approche utilisant un SGBD s’est avérée particulièrement adaptée pour le volet ‘reconstitution d’un monde historique’ mais elle a montré ses limites pour ce qui concerne le stockage du contenu d’une source. Depuis deux ans nous avons par conséquent mis en chantier un couplage du SGBD avec l’encodage des textes en xml selon le schéma proposé par la Text encoding initiative (TEI), tout en utilisan les identifiants des objets tels qu’ils ont été définis dans la base de données comme attributs du balisage. Ce système est particulièrement adapté à l’encodage de textes qui sont destinés à une édition, sous forme papier ou digitale.

En s’appuyant sur la modélisation spécifique à chaque information stockée, tout utilisateur suffisamment formé au SQL peut extraire les informations qui lui sont accessibles grâce à des requêtes de base, voire produire de nouvelles connaissances grâce à des requêtes avancées. Les données ainsi produites sont exportées, habituellement sous format cvs, et sont ensuite visualisées et exploitées dans les logiciels existants de statistique, généalogie, analyse des réseaux, SIG, etc. Des formations spécifiques à ces logiciels sont dispensées régulièrement pour permettre aux étudiants et aux collègues d’exploiter les données qu’ils ont collectées.

Concernant la publication des données, il est possible de définir des populations d’objets propres aux différents projets hébergés, par exemple une population d’acteurs, ou d’institutions, dont on souhaite publier un choix de caractéristiques sur un site web, moyennant accord des ‘propriétaires’ des informations publiées. Des sites web dédiés à chaque projet peuvent ainsi être mis en place à partir de la base de données collective, ne publiant qu’une portion limitée d’informations. Actuellement, l’exemple le plus abouti est représenté par le projet de prosopographie du patronat français issu d’un financement de l’ANR (http://www.patronsdefrance.fr/). La méthode adoptée par SyMoGIH permet de valoriser les données produites au cours d’un projet financé de durée limitée, en les rendant directement exploitables par les étudiants ou les chercheurs qui, en retour, continueront à alimenter et à enrichir les données même après la fin de la période de financement du projet.