Partager

Renom

Projet soutenu par la Région Centre

Renom
Renaissance : indexation et
recherche d'information sur les entités nommées

       
 

Une présentation complète du projet Prolex et la mise à disposition de Prolexbase se trouvent sur le site Ortolang.


Site du projet

Les résultats des travaux réalisés dans le cadre du projet Renom sont illustrés par le site Renom. Le corpus réalisé est disponible sur ce site.
 

Résumé du projet

Les Bibliothèques Virtuelles Humanistes (BVH) du Centre d'Études Supérieures de la Renaissance rendent accessibles en ligne des ouvrages de la Renaissance, sous la forme d’un fac-similé numérique (image de la page) et d’un texte lorsque celui-ci est transcrit. Le projet ReNom vise à permettre une meilleure exploitation de ces documents par une recherche des entités nommées (principalement les noms de personnes et les noms de lieu) et par leur indexation, souvent absente des éditions.

Deux difficultés majeures se présentent : les variations graphiques de ces noms et la recherche automatique d'un nom sous la forme d'une "image" à l'intérieur de pages qui sont elles-mêmes des images. Comme un grand nombre de ces textes font partie du patrimoine du Centre, les exemples les plus célèbres étant sans doute les œuvres de Rabelais et de Ronsard, le projet s'inscrit dans la thématique "tourisme" de la Région Centre grâce à un partenariat avec les sociétés Supersoniks et Digiscrib, et la collaboration des musées et monuments de la région.

Un grand nombre de ces textes transcrits ou numérisés par les BVH font partie du patrimoine régional (les exemples les plus célèbres étant Rabelais et Ronsard). Le projet ReNom vise à permettre une meilleure exploitation de ce patrimoine en fournissant à l’internaute des outils pour naviguer à partir des noms de personne ou de lieu, et en l’invitant à compléter sa consultation par une visite de la Touraine (par exemple le musée de La Devinière s’il s'agit de Rabelais, mais aussi de châteaux qu’il mentionne). Il sera même possible de « localiser » Thélème (qui n’a jamais existé) en fonction des données fournies par le texte.

Concrètement, le projet ReNom effectuera une recherche des entités nommées et des informations principales qu’il est possible d’extraire localement sur ces entités (qui sont ces personnes ou personnages ? où sont situés ces lieux ?). Il sera centré sur le corpus rabelaisien pour le mode texte, et sur les Œuvres de Ronsard en mode image.

Depuis plusieurs années, le Traitement Automatique des Langues (TAL) s'intéresse aux entités nommées, mais le projet ReNom s’affronte à deux nouveaux verrous par rapport à l'existant :
  • Les textes transcrits (ceux de Rabelais) sont des textes en français de la Renaissance et les graphies (on ne peut même pas parler d’orthographe) des mots n'étant pas stabilisées, plusieurs variantes sont possibles pour un même mot. Il faudra les rassembler sous une même entrée d'index.
  • Les textes scannés, mais non transcrits (les Œuvres de Ronsard dans l’édition de 1623) sont des images de page et les entités à reconnaître sont elles aussi des images qui sont donc à localiser à l'intérieur d'une image… Il ne s'agit plus de TAL, mais de problématiques de reconnaissance et de traitement des images. Les méthodes de « word spotting » récemment proposées par différentes équipes de recherche du domaine devront être adaptées pour supporter les spécificités des ouvrages imprimés de la Renaissance.
L'action s'est réalisée du 1er octobre 2011 au 31 décembre 2013.
 

Partenaires du projet

Partenaires académiques :
  • LI-BdTln : Denis MAUREL, Jean-Yves ANTOINE, Thomas DEVOGELE, Nathalie FRIBURGER et Agata SAVARY.
  • LI-RFAI : Jean-Yves RAMEL, Thierry BROUARD, Mathieu DELALANDRE et Nicolas RAGOT.
  • CESR-BVH : Marie-Luce DEMONET, Jean-Louis BOUTEILLIER, Sébastien BUSSON, Sandrine BREUIL, Toshinori UETANI et Marie-Elisabeth BOUTROUE (IRHT Paris-Orléans).
  • LLL : Iris ESHKOL.
Partenaires industriels :
  • Digiscrib : Miguel CRESPO.
  • Supersoniks : Franck LOLLIEROU.