FEDER : Fonds Européen de Développement Régional - Entités nommées et nommables
Documents
Maurel D., Friburger N., Eskhol I., Antoine J.-Y. (2009) Explorer des corpus à l’aide de CasSys : application au corpus d’Orléans, LingCorp’2009, Lorient.
Maurel D., Friburger N., Eshkol I. (2009), Who are you, you who speak? Transducer cascades for information retrieval, 4th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 6-8 novembre, 220-223.
Eshkol I., Maurel D., Friburger N. (2010), Eslo : from transcription to speakers' personal information annotation, Seventh language resources and evaluation conference (LREC 2010), Malte, 19-21 mai.
Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de transducteurs autour de la reconnaissance des entités nommées, à paraître dans la revue TAL.
Maurel D., Friburger N., Eshkol I. (2009), Who are you, you who speak? Transducer cascades for information retrieval, 4th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 6-8 novembre, 220-223.
Eshkol I., Maurel D., Friburger N. (2010), Eslo : from transcription to speakers' personal information annotation, Seventh language resources and evaluation conference (LREC 2010), Malte, 19-21 mai.
Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de transducteurs autour de la reconnaissance des entités nommées, à paraître dans la revue TAL.
Résumé du projet
Objectifs poursuivis : La reconnaissance des entités nommées et nommantes est essentielle à la recherche d'information et à la veille technologique. Il s'agit de pouvoir suivre une entité (personne, évènement, lieu, organisation, entreprise…) et de retrouver l'information la concernant. Les applications futures sont des plus importantes, étant donné le développement exponentiel de l'information textuelle, en particulier par le biais d'internet, mais aussi de l'information médiatique (radio et télévision) transcrite à l'aide d'outils automatiques.
Résultats attendus : Le but de ce projet est la détection des entités nommées et nommantes dans deux types de corpus oraux, un corpus transcrit manuellement et un autre transcrit automatiquement. Il s'agit aussi de comparer les résultats obtenus à ceux des équipes de recherche concurrentes par la participation à la campagne d'évaluation ESTER, organisée par la DGA. Le travail sera ensuite poursuivi sur des corpus écrits du journal Le Monde.
Principaux points prévus :
Résultats attendus : Le but de ce projet est la détection des entités nommées et nommantes dans deux types de corpus oraux, un corpus transcrit manuellement et un autre transcrit automatiquement. Il s'agit aussi de comparer les résultats obtenus à ceux des équipes de recherche concurrentes par la participation à la campagne d'évaluation ESTER, organisée par la DGA. Le travail sera ensuite poursuivi sur des corpus écrits du journal Le Monde.
Principaux points prévus :
- La réalisation d'un programme libre CasSys, optimisé et opérationnel, et son intégration à la plateforme Unitex.
- La maintenance de la base de données Prolexbase sur le site CNRS du CNRTL.
- La réalisation d'une cascade CasEN conforme aux spécifications de la campagne d'évaluation Ester, disponible sur ce site, sous licence LGPL-LR.
L'action s'est réalisée du 1er octobre 2009 au 31 décembre 2010.
La cascade CasEN réalisée pour la campage Ester
Les étiquettes insérées par la version Ester de CasEN sont inspirée de celles proposées dans la campagne ESTER 2, sans être parfaitement identiques à celles-ci. En voici la liste :
D'autre part, nous avons insérés quelques balises spécifiques internes aux entités : N, prenom, nom, job, sigle, timeModifier et nat. Ces balises sont supprimées par la cascade de synthèse.
« C'est à nos clients de décider s'ils souhaitent ou non consacrer une partie de leur patrimoine à l'<ENT type="loc.admi">Asie</ENT> », souligne <ENT type="pers.hum">Pierre Ciret</ENT>, de la <ENT type="org.com">Compagnie financière <ENT type="pers.hum">Edmondde Rothschild</ENT></ENT>.
Ils ne peuvent pas, en revanche, faire l'impasse sur la <ENT type="org.com">Bourse de <ENT type="loc.admi">Hongkong</ENT></ENT>, car cette place représente près de la moitié de la capitalisation boursière de la région. Pour sa part, <ENT type="pers.hum">Pierre-Alexis Dumont</ENT>, de <ENT type="org.com">State Street Banque</ENT>, s'est réfugié sur le marché australien, relativement épargné par la tourmente.
<ENT type="org.div">Théâtre Gérard-Philipe</ENT>, <ENT type="loc.addr.post">59, <ENT type="loc.line">boulevard Jules-Guesde</ENT>, 93000 <ENT type="loc.admi.ville">Saint-Denis</ENT></ENT>.
Selon une étude de l'<ENT type="org">Autorité de régulation des télécommunications</ENT> (<ENT type="org">ART</ENT>), le taux d'équipement devrait dépasser les 50 % <ENT type="time.date.abs">en 2002</ENT>.
Une évaluation a été réalisée sur un extrait du journal Le Monde daté du 1er janvier 1999, 7 articles, soit 7 070 mots pour 83.2 ko. En voici les résultats :
personne (pers) | humain réel ou fictif (pers.hum) animal réel ou fictif (pers.anim) |
civilité (pers.hum.title) titre professionnel (pers+hum+fonc) adjectif ethnique (pers+hum+ethnic) gentilés et adjectifs toponymiques (pers+hum+gent) nationalité (pers+hum+nat) dynastie (pers+hum+dyn) |
fonction (fonc) | politique (fonc.pol) militaire (fonc.mil) administrative (fonc.admi) religieuse (fonc.rel) aristocratique (fonc.ari) |
|
organisation (org) | politique (org.pol) éducative (org.edu) commerciale (org.com) non commerciale (org.non-profit) de divertissement et média (org.div) géo-socio-politique (org.gsp) |
|
lieu (loc) | géographique naturel (loc.geo) axe de circulation (loc.line) construction humaine (loc.fac) région administrative (loc.admi) adresse (loc.addr) |
ville (loc.admi.ville) adresse postale (loc.addr.post) téléphone et fax (loc.addr.tel) adresse électronique (loc.addr.elec) |
production humaine (prod) | produit (prod.obj) moyen de transport (prod.vehicle) récompense (prod.award) œuvre artistique (prod.art) production documentaire (prod.doc) |
|
date et heure (time) | date (time.date) heure (time.hour) adverbe de date (time.advdate) |
date absolue (time.date.abs) date relative (time.date.rel) |
montant (amount) | valeur physique (amount.phy) valeur monétaire (amount.cur) octets (amount.computer) |
durée (amount.phy.dur) température (amount. phy.temp) longueur (amount. phy.len) surface et aire (amount.phy.area) volume (amount.phy.vol) poids (amount. phy.wei) vitesse (amount. phy.spd) âge (amount.phy.age) autre (amount.phy.other) |
évènement (event) | histoire (event+hist) célébration (event+cel) fête (event+feast) manifestation (event+manif) météorologie (event+meteo) |
D'autre part, nous avons insérés quelques balises spécifiques internes aux entités : N, prenom, nom, job, sigle, timeModifier et nat. Ces balises sont supprimées par la cascade de synthèse.
Exemples de balisage
« Au pire de la crise, <ENT type="time.date.rel">à <ENT type="time.date.rel">l'automne dernier</ENT></ENT>, nous avons détenu jusqu’à 20 % de liquidités dans notre portefeuille », indique <ENT type="pers.hum">Denis Remacle</ENT>, <ENT type="fonc">gérant d'<ENT type="org">Amplitude Pacifique</ENT></ENT>, une sicav de <ENT type="org">La Poste</ENT>.« C'est à nos clients de décider s'ils souhaitent ou non consacrer une partie de leur patrimoine à l'<ENT type="loc.admi">Asie</ENT> », souligne <ENT type="pers.hum">Pierre Ciret</ENT>, de la <ENT type="org.com">Compagnie financière <ENT type="pers.hum">Edmondde Rothschild</ENT></ENT>.
Ils ne peuvent pas, en revanche, faire l'impasse sur la <ENT type="org.com">Bourse de <ENT type="loc.admi">Hongkong</ENT></ENT>, car cette place représente près de la moitié de la capitalisation boursière de la région. Pour sa part, <ENT type="pers.hum">Pierre-Alexis Dumont</ENT>, de <ENT type="org.com">State Street Banque</ENT>, s'est réfugié sur le marché australien, relativement épargné par la tourmente.
<ENT type="org.div">Théâtre Gérard-Philipe</ENT>, <ENT type="loc.addr.post">59, <ENT type="loc.line">boulevard Jules-Guesde</ENT>, 93000 <ENT type="loc.admi.ville">Saint-Denis</ENT></ENT>.
Selon une étude de l'<ENT type="org">Autorité de régulation des télécommunications</ENT> (<ENT type="org">ART</ENT>), le taux d'équipement devrait dépasser les 50 % <ENT type="time.date.abs">en 2002</ENT>.
Évaluation
Une évaluation a été réalisée sur un extrait du journal Le Monde daté du 1er janvier 1999, 7 articles, soit 7 070 mots pour 83.2 ko. En voici les résultats :
- Sur 582 entités nommées présentes, 432 ont été reconnues, avec, en plus, 11 fausses reconnaissances, soit :
- Précision : 97,52%
- Rappel : 74,23%
- Sur les entités reconnues, 390 types étaient corrects et 3 types comportaient une erreur due à la métonymie (par exemple France comme toponyme au lieu d'organisation).
- Sans compter les erreurs dues à la métonymie :
- Précision : 88,71%
- Rappel : 67,53%
- En comptant les erreurs dues à la métonymie :
- Précision : 88,04%
- Rappel : 67,01%
- Sans compter les erreurs dues à la métonymie :
- Sur les entités reconnues et bien typées, 384 sous-types étaient corrects, soit :
- Précision : 85,52%
- Rappel : 65,98%
- Enfin, à nouveau sur les entités reconnues, 393 étaient correctement balisées, 20 avaient un début défectueux et une fin correcte, 16 un début correct et une fin défectueuse, 3 un début et une fin défectueux, soit :
- Précision : 90,97%
- Rappel : 67,53%
Partenaires du projet
- LI : Denis MAUREL et Nathalie FRIBURGER.