Partager

Technolangue

NomsPropres
Constitution et exploitation
d'un dictionnaire relationnel multilingue de noms propres



       
 

Documents

La base est consultable et téléchargeable sur le site du CNRTL.

Rapports de recherche :
Maurel D., Tran M., Vitas D., Grass T., Savary A. (2006), Prolex : Implantation d'une ontologie multilingue des noms propres, Rapport interne du Laboratoire d'Informatique de l'Université François-Rabelais de Tours, n°286, 47 p.

Tran M., Maurel D. (2006), Prolexbase : le modèle conceptuel de données et son implantation, Rapport interne du Laboratoire d'Informatique de l'Université François-Rabelais de Tours, n°287, 21 p.

Tran M., Maurel D. (2006), Prolexbase : les interfaces de consultation et de travail, Rapport interne du Laboratoire d'Informatique de l'Université François-Rabelais de Tours, n°289, 24 p.

Thèse de Mickaël Tran :
Tran M. (2006), Prolexbase. Un dictionnaire relationnel multilingue de noms propres : conception implantation et gestion en ligne, Thèse de doctorat d'informatique, Université François-Rabelais de Tours.

Publications :
Grass T., Maurel D., Tran M. (2004), Prolexbase : Une ontologie pour le traitement multilingue des noms propres, Linguistica Antverpiensia, NS3:293-309.

Tran M., Maurel D., Savary A. (2005), Implantation d’un tri lexical respectant la particularité des noms propres, Lingvisticae Investigationes, XXVIII-2.

Communications internationales avec comité de lecture :
Grass T., Maurel D. (2004), A multilingual electronic dictionary of proper nouns for translation purposes, Third International Conference on International Translation, Barcelone, Espagne, 4-6 mars.

Maurel D. (2004), Les mots inconnus sont-ils des noms propres ?, Septièmes Journées internationales d'Analyse statistique des Données Textuelles (JADT 2004), Louvain-la-Neuve, Belgique, 10-12 mars.

Tran M., Grass T., Maurel D. (2004), An ontology for multilingual treatment of proper names, Ontologies and Lexical Resources in Distributed Environments (OntoLex 2004), in Association with LREC2004 (Actes p. 75-78), Lisbonne, Portugal, 29 mai.

Krstev S., Vitas D., Maurel D., Tran M. (2005), Multilingual Ontology of Proper Names, Second Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznan, Poland, 21-23 avril.

Bouchou B., Tran M., Maurel D. (2005), Towards an XML Representation of Proper Names and Their Relationships, Tenth International Conference on Applications of Natural Language to Information Systems (NLDB'2005), Alicante, Spain, 15-17 juin, in Lecture Notes in Computer Science, 3513.

Tran M., Maurel D., Vitas D., Krstev S. (2005), A French-Serbian Web Collaborative Work on a Multilingual Dictionary of Proper Names, Papillon 2005 workshop on Multilingual Lexical Databases, in Association with the Sixth Symposium on Natural Language Processing (SNLP 2005), Chiang Rai, Thailande, 12-14 décembre.
 

Résumé du projet

Le projet Technolangue NomsPropres avait pour but la création de ressources multilingues pour le traitement automatique des noms propres.Ses principaux résultats sont la constitution d'un dictionnaire relationnel multilingue de noms propres, Prolexbase, et la réalisation d'outils d'extraction de noms propres. Ce dictionnaire a été conçu à partir d'une ontologie des noms propres, structurée en deux parties (respectivement multilingue et monolingue). Le cœur de la partie multilingue est constitué de pivots qui jouent le rôle de lien interlangue et représentent différents points de vue sur le référent du nom propre. Chaque pivot est hyponyme d'un type et d'une existence. La partie multilingue contient aussi trois relations sémantiques : la méronymie, la synonymie et l'accessibilité. La partie monolingue est spécifique à chaque langue ; on y trouve le prolexème, sorte de super lemme du nom propre, ses alias et dérivés, ainsi que toutes les instances correspondantes.
 

Abstract

The purpose of the Technolangue project NomsPropres (Proper names) was to create multilingual resources for proper name processing.The main results were the creation of multilingual relational dictionary of proper names, Prolexbase, and the implementation of proper names extraction tools. This dictionary has been built from an ontology, structured in two parts: a multilingual part and a monolingual part. The core of the multilingual part consists in the pivots, which play the role of inter lingual link and represent different points of view of the referent of a proper name. Each pivot is hyponym of a type and hyponym of an existence. The multilingual part also includes three semantic relations: Meronymy, Synonymy and Accessibility. The monolingual part is a specific part for each language, in which we can find the prolexeme, a kind of super lemma of the proper names, its aliases and derivatives, and also all corresponding instances.
 

Description du projet

Le projet Technolangue NomsPropres a été réalisé à l'université François-Rabelais de Tours, de septembre 2003 à août 2005, par une collaboration entre le laboratoire d'Informatique et le groupe de recherche Langues et représentation ; il a été soutenu par le ministère de l’Industrie et a fait l'objet d'un partenariat avec les sociétés Systran et Exalead.

La production, la diffusion, le traitement automatisé et l'exploitation de l'information électronique sont très largement conditionnés par la disponibilité de ressources linguistiques adaptées et de composants logiciels performants. L'importance de ces ressources linguistiques est indéniable. Cependant, l'effort de la communauté scientifique TAL a porté essentiellement sur des ressources dictionnairiques de noms communs et sur des ressources terminologiques spécialisées. Nous avons proposé, à travers ce projet, d'introduire des connaissances sur les noms propres, qui constituent, à eux seuls, 10% des textes journalistiques et qui sont porteurs d'une riche sémantique.Le projet était axé autour de trois objectifs :
  • La constitution d'un dictionnaire relationnel multilingue de noms propres, Prolexbase, modélisé à partir d'une ontologie des noms propres. Les données françaises proviennent des travaux de l'université François-Rabelais et les données multilingues ont été fournies par Systran. Pour gérer convenablement l'aspect multilingue, les noms propres ont été codés en Unicode (UTF-16). Différents outils de gestion de cette base ont été implantés, ainsi qu'une consultation en ligne.
  • Une réflexion sur la manière dont les noms propres pourraient être intégrés à un kit de ressources linguistiques minimales, pour une langue donnée et, probablement, pour une période donnée. En effet, on peut imaginer, à la lecture des journaux, qu'il existe une catégorie de noms propres dont la notoriété est liée à un patrimoine culturel national (Molière, Paris, Napoléon Bonaparte…), alors que d'autres semblent avoir une notoriété liée à l'actualité : les noms propres indispensables pour l'étude d'un corpus journalistique d'une année donnée peuvent se révéler inutiles quelques années plus tard.
  • La réalisation d'outils d'extraction de noms propres sur des ressources journalistiques et sur la Toile francophone.
L'action s'est réalisée du 1er septembre 2003 au 31 août 2005, en parallèle à un projet PAI en 2004-2005.
 

Participants au projet

  • Du LI : Jean-Yves ANTOINE, Béatrice BOUCHOU, Nathalie FRIBURGER, Denis MAUREL, Ionas MICHAILIDIS, Agata SAVARY et Mickaël TRAN.
  • De L&R : Claire AGAFONOV, Thierry GRASS et Nathalie ROSSI.
  • De Systran : Elsa SKLAVOUNOU
  • D'Exalead : Julien CARCENAC et Francois LAGUNAS