Partager

Entités nommées et nommables

     

Une présentation complète du projet Prolex, ainsi qu'une mise à disposition de CasEN, se trouvent sur le site Ortolang.


Documents

Maurel D., Friburger N., Eskhol I., Antoine J.-Y. (2009) Explorer des corpus à l’aide de CasSys : application au corpus d’Orléans, LingCorp’2009, Lorient.

Maurel D., Friburger N., Eshkol I. (2009), Who are you, you who speak? Transducer cascades for information retrieval, 4th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 6-8 novembre, 220-223.

Eshkol I., Maurel D., Friburger N. (2010), Eslo : from transcription to speakers' personal information annotation, Seventh language resources and evaluation conference (LREC 2010), Malte, 19-21 mai.

Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de transducteurs autour de la reconnaissance des entités nommées, à paraître dans la revue TAL.
 

Résumé du projet

Objectifs poursuivis : La reconnaissance des entités nommées et nommantes est essentielle à la recherche d'information et à la veille technologique. Il s'agit de pouvoir suivre une entité (personne, évènement, lieu, organisation, entreprise…) et de retrouver l'information la concernant. Les applications futures sont des plus importantes, étant donné le développement exponentiel de l'information textuelle, en particulier par le biais d'internet, mais aussi de l'information médiatique (radio et télévision) transcrite à l'aide d'outils automatiques.

Résultats attendus : Le but de ce projet est la détection des entités nommées et nommantes dans deux types de corpus oraux, un corpus transcrit manuellement et un autre transcrit automatiquement. Il s'agit aussi de comparer les résultats obtenus à ceux des équipes de recherche concurrentes par la participation à la campagne d'évaluation ESTER, organisée par la DGA. Le travail sera ensuite poursuivi sur des corpus écrits du journal Le Monde.

Principaux points prévus :
  • La réalisation d'un programme libre CasSys, optimisé et opérationnel, et son intégration à la plateforme Unitex.
  • La maintenance de la base de données Prolexbase sur le site CNRS du CNRTL.
  • La réalisation d'une cascade CasEN conforme aux spécifications de la campagne d'évaluation Ester, disponible sur ce site, sous licence LGPL-LR.
L'action s'est réalisée du 1er octobre 2009 au 31 décembre 2010.
 

La cascade CasEN réalisée pour la campage Ester

Les étiquettes insérées par la version Ester de CasEN sont inspirée de celles proposées dans la campagne ESTER 2, sans être parfaitement identiques à celles-ci. En voici la liste :
personne (pers)humain réel ou fictif (pers.hum)
animal réel ou fictif (pers.anim)civilité (pers.hum.title)
titre professionnel (pers+hum+fonc)
adjectif ethnique (pers+hum+ethnic)
gentilés et adjectifs toponymiques (pers+hum+gent)
nationalité (pers+hum+nat)
dynastie (pers+hum+dyn)
fonction (fonc)politique (fonc.pol)
militaire (fonc.mil)
administrative (fonc.admi)
religieuse (fonc.rel)
aristocratique (fonc.ari) 
organisation (org)politique (org.pol)
éducative (org.edu)
commerciale (org.com)
non commerciale (org.non-profit)
de divertissement et média (org.div)
géo-socio-politique (org.gsp) 
lieu (loc)géographique naturel (loc.geo)
axe de circulation (loc.line)
construction humaine (loc.fac) 
région administrative (loc.admi)ville (loc.admi.ville)
adresse (loc.addr)adresse postale (loc.addr.post)
téléphone et fax (loc.addr.tel)
adresse électronique (loc.addr.elec)
production humaine (prod)produit (prod.obj)
moyen de transport (prod.vehicle)
récompense (prod.award)
œuvre artistique (prod.art)
production documentaire (prod.doc) 
date et heure (time)date (time.date)date absolue (time.date.abs)
date relative (time.date.rel)
heure (time.hour)
adverbe de date (time.advdate) 
montant (amount)valeur physique (amount.phy)durée (amount.phy.dur)
température (amount. phy.temp)
longueur (amount. phy.len)
surface et aire (amount.phy.area)
volume (amount.phy.vol)
poids (amount. phy.wei)
vitesse (amount. phy.spd)
âge (amount.phy.age)
autre (amount.phy.other)
valeur monétaire (amount.cur)
octets (amount.computer) 
évènement (event)histoire (event+hist)
célébration (event+cel)
fête (event+feast)
manifestation (event+manif)
météorologie (event+meteo) 

D'autre part, nous avons insérés quelques balises spécifiques internes aux entités : N, prenom, nom, job, sigle, timeModifier et nat. Ces balises sont supprimées par la cascade de synthèse.
 

Exemples de balisage

« Au pire de la crise, à l'automne dernier, nous avons détenu jusqu’à 20 % de liquidités dans notre portefeuille », indique Denis Remacle, gérant d'Amplitude Pacifique, une sicav de La Poste.

« C'est à nos clients de décider s'ils souhaitent ou non consacrer une partie de leur patrimoine à l'Asie », souligne Pierre Ciret, de la Compagnie financière Edmondde Rothschild.

Ils ne peuvent pas, en revanche, faire l'impasse sur la Bourse de Hongkong, car cette place représente près de la moitié de la capitalisation boursière de la région. Pour sa part, Pierre-Alexis Dumont, de State Street Banque, s'est réfugié sur le marché australien, relativement épargné par la tourmente.

Théâtre Gérard-Philipe, 59, boulevard Jules-Guesde, 93000 Saint-Denis.

Selon une étude de l'Autorité de régulation des télécommunications (ART), le taux d'équipement devrait dépasser les 50 % en 2002.
 

Évaluation

Une évaluation a été réalisée sur un extrait du journal Le Monde daté du 1er janvier 1999, 7 articles, soit 7 070 mots pour 83.2 ko. En voici les résultats :
  • Sur 582 entités nommées présentes, 432 ont été reconnues, avec, en plus, 11 fausses reconnaissances, soit :
    • Précision : 97,52%
    • Rappel : 74,23%
  • Sur les entités reconnues, 390 types étaient corrects et 3 types comportaient une erreur due à la métonymie (par exemple France comme toponyme au lieu d'organisation).
    • Sans compter les erreurs dues à la métonymie :
      • Précision : 88,71%
      • Rappel : 67,53%
    • En comptant les erreurs dues à la métonymie :
      • Précision : 88,04%
      • Rappel : 67,01%
  • Sur les entités reconnues et bien typées, 384 sous-types étaient corrects, soit :
    • Précision : 85,52%
    • Rappel : 65,98%
  • Enfin, à nouveau sur les entités reconnues, 393 étaient correctement balisées, 20 avaient un début défectueux et une fin correcte, 16 un début correct et une fin défectueuse, 3 un début et une fin défectueux, soit :
    • Précision : 90,97%
      • Rappel : 67,53%

Partenaires du projet

  • LI : Denis MAUREL et Nathalie FRIBURGER.