Version française Anciens projets Ortolang

Ortolang

Une présentation complète du projet Prolex, ainsi qu'une mise à disposition de CasEN, se trouvent sur le site Ortolang.

Résumé du projet

Ce projet a été financé par le projet Ortolang (Outils et Resources pour un Traitement Optimisé de la LANGue), un équipement d’excellence validé dans le cadre des investissements d’avenir. Son but est de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés.

Ce projet fait suite à la réalisation d'un système de cascade de transducteurs, le système CasEN, sur la plateforme Unitex, réalisée dans le cadre du projet ANR Variling et du projet FEDER Région Centre Entités nommées et nommables. Cette cascade est disponible sur ce site sous licence libre LGPL-LR.

L'action s'est réalisée du 1er novembre 2013 au 30 avril 2014.

Les étiquettes insérées

Les étiquettes insérées par la version Ortolang de CasEN sont extraites de la Text Encoding Initiative (TEI). Elles sont au nombre de huit. En voici la liste :

persName (personne)
placeName (lieu administratif)
geogName (lieu géographique)
orgName (organisation)
measure (mesure)
address (adresse)
date (date)
time (heure)

Évaluation

L'évaluation a porté sur le texte E161 : 396 ko – 172 894 unités, dont 71 130 séquences de lettres et 2 364 chiffres.

Nous présentons les résultats en utilisant la variante pondérée du slot error rate (SER) (Makhoul et al., 1999) utilisée lors de la campagne Etape. Le principe de base est de fournir un taux d'erreur sur l'ensemble des entités de référence. La base de calcul est donc le nombre d'entités, et non pas le nombre de mots contenus dans les entités de référence. Pour cette variante du slot error rate, on peut distinguer trois types d'erreurs :

les insertions (I), qui sont des entités détectées par notre système et qui n'ont aucun mot commun avec une entité des textes de référence
les suppressions (D), qui sont des entités des textes de référence totalement manquées par le système
et les entités de référence substituées, qui sont des entités détectées par notre système correspondant de façon incorrecte à des entités des textes de référence ; les entités substituées correspondent, soit à un typage incorrect (T), soit à des balises mal placées (E), soit aux deux erreurs à la fois (TE)

Nous comptons de plus :

R l'ensemble des entités des textes de référence
S l'ensemble des entités détectées par notre système

#I	#D	#T	#E	#TE	#S	#R
191	437	89	68	48	2349	2595

Ce décompte nous permet de calculer le taux d'erreur SER, le rappel et la précision, ainsi que la précision du typage et celle du balisage. Nous attribuons 1 point par erreur I, D ou TE et 0,5 point par erreur T ou E.

SER	(I + D + 0,5T + 0,5E + TE) /R	29,1%
Rappel	(S - I) /R	83,2%
Précision	(S - I) /S	91,9%
Précision du typage	(S - I - T - TE) /S	86,0%
Précision du balisage	(S - I - E - TE) /S	86,9%

Quelques exemples d'erreurs

1. La présence d'un adjectif n'avait pas été prévue lors du déplacement de la balise placeName par la cascade de synthèse

mon frère et moi avons dévalé les <placeName>pistes enneigées de Verbier</placeName>

Ce qui a été corrigé pour donner :

mon frère et moi avons dévalé les pistes enneigées de <placeName>Verbier</placeName>

2. Un nom sans introducteur ne peut être reconnu que s'il se trouve dans le dictionnaire

qu'à Verbier.

Une solution envisagée serait la construction automatique d'une cascade supplémentaire permettant la reconnaissance de noms introduits précédemment dans le texte pour obtenir :

qu'à <placeName>Verbier</placeName>.

3. Europe avait été placé comme prioritaire dans le dictionnaire (pour éviter l'ambiguïté avec le nom d'un personnage mythologique), mais cela avait comme effet de bloquer la reconnaissance du toponyme polylexical Europe de l'Est

logeaient des réfugiés d'<placeName>Europe</placeName> de l'<placeName>Est</placeName>, il a rencontré

Ce qui a été corrigé pour donner :

logeaient des réfugiés d'<placeName>Europe de l'Est</placeName>, il a rencontré

4. Le prénom Masza était absent dictionnaire et ne pouvait donc servir de preuve interne

Masza Finkielsztein, juive polonaise originaire de <placeName>Varsovie</placeName>

Il a été ajouté :

<persName>Masza Finkielsztein</persName>, juive polonaise originaire de <placeName>Varsovie</placeName>

5. La présence d'une coordination de persName n'avait pas été prévue dans la cascade de synthèse

désormais <persName>Jacques et Maryse</persName> — je ne connaîtrai leurs vrais

Il aurait fallu obtenir :

désormais <persName>Jacques</persName> et <persName>Maryse</persName> — je ne connaîtrai leurs vrais

6. La présence d'un adjectif toponymique n'avait pas été prévue pour les adresses dans la cascade d'analyse

dans un quartier calme et prospère du <address>XVI<hi rend="E">e</hi> arrondissement</address> parisien

Ce qui a été corrigé pour donner :

dans un quartier calme et prospère du <address>XVI<hi rend="E">e</hi> arrondissement parisien</address>

Partenaires du projet

LI : Jessica DURAND, Nathalie FRIBURGER et Denis MAUREL.
CNRS-Nancy : Étienne PETITJEAN et Jean-Marie PIERREL.