Ortolang
Une présentation complète du projet Prolex, ainsi qu'une mise à disposition de CasEN, se trouvent sur le site Ortolang.
Résumé du projet
Ce projet a été financé par le projet Ortolang (Outils et Resources pour un Traitement Optimisé de la LANGue), un équipement d’excellence validé dans le cadre des investissements d’avenir. Son but est de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés.
Ce projet fait suite à la réalisation d'un système de cascade de transducteurs, le système CasEN, sur la plateforme Unitex, réalisée dans le cadre du projet ANR Variling et du projet FEDER Région Centre Entités nommées et nommables. Cette cascade est disponible sur ce site sous licence libre LGPL-LR.
L'action s'est réalisée du 1er novembre 2013 au 30 avril 2014.
Ce projet fait suite à la réalisation d'un système de cascade de transducteurs, le système CasEN, sur la plateforme Unitex, réalisée dans le cadre du projet ANR Variling et du projet FEDER Région Centre Entités nommées et nommables. Cette cascade est disponible sur ce site sous licence libre LGPL-LR.
L'action s'est réalisée du 1er novembre 2013 au 30 avril 2014.
Les étiquettes insérées
Les étiquettes insérées par la version Ortolang de CasEN sont extraites de la Text Encoding Initiative (TEI). Elles sont au nombre de huit. En voici la liste :
- persName (personne)
- placeName (lieu administratif)
- geogName (lieu géographique)
- orgName (organisation)
- measure (mesure)
- address (adresse)
- date (date)
- time (heure)
Évaluation
L'évaluation a porté sur le texte E161 : 396 ko – 172 894 unités, dont 71 130 séquences de lettres et 2 364 chiffres.
Nous présentons les résultats en utilisant la variante pondérée du slot error rate (SER) (Makhoul et al., 1999) utilisée lors de la campagne Etape. Le principe de base est de fournir un taux d'erreur sur l'ensemble des entités de référence. La base de calcul est donc le nombre d'entités, et non pas le nombre de mots contenus dans les entités de référence. Pour cette variante du slot error rate, on peut distinguer trois types d'erreurs :
Nous présentons les résultats en utilisant la variante pondérée du slot error rate (SER) (Makhoul et al., 1999) utilisée lors de la campagne Etape. Le principe de base est de fournir un taux d'erreur sur l'ensemble des entités de référence. La base de calcul est donc le nombre d'entités, et non pas le nombre de mots contenus dans les entités de référence. Pour cette variante du slot error rate, on peut distinguer trois types d'erreurs :
- les insertions (I), qui sont des entités détectées par notre système et qui n'ont aucun mot commun avec une entité des textes de référence
- les suppressions (D), qui sont des entités des textes de référence totalement manquées par le système
- et les entités de référence substituées, qui sont des entités détectées par notre système correspondant de façon incorrecte à des entités des textes de référence ; les entités substituées correspondent, soit à un typage incorrect (T), soit à des balises mal placées (E), soit aux deux erreurs à la fois (TE)
Nous comptons de plus :
- R l'ensemble des entités des textes de référence
- S l'ensemble des entités détectées par notre système
#I | #D | #T | #E | #TE | #S | #R |
191 | 437 | 89 | 68 | 48 | 2349 | 2595 |
Ce décompte nous permet de calculer le taux d'erreur SER, le rappel et la précision, ainsi que la précision du typage et celle du balisage. Nous attribuons 1 point par erreur I, D ou TE et 0,5 point par erreur T ou E.
SER | (I + D + 0,5T + 0,5E + TE) /R | 29,1% |
Rappel | (S - I) /R | 83,2% |
Précision | (S - I) /S | 91,9% |
Précision du typage | (S - I - T - TE) /S | 86,0% |
Précision du balisage | (S - I - E - TE) /S | 86,9% |
Quelques exemples d'erreurs
1. La présence d'un adjectif n'avait pas été prévue lors du déplacement de la balise placeName par la cascade de synthèse- mon frère et moi avons dévalé les <placeName>pistes enneigées de Verbier</placeName>
- mon frère et moi avons dévalé les pistes enneigées de <placeName>Verbier</placeName>
- qu'à Verbier.
- qu'à <placeName>Verbier</placeName>.
- logeaient des réfugiés d'<placeName>Europe</placeName> de l'<placeName>Est</placeName>, il a rencontré
- logeaient des réfugiés d'<placeName>Europe de l'Est</placeName>, il a rencontré
- Masza Finkielsztein, juive polonaise originaire de <placeName>Varsovie</placeName>
- <persName>Masza Finkielsztein</persName>, juive polonaise originaire de <placeName>Varsovie</placeName>
- désormais <persName>Jacques et Maryse</persName> — je ne connaîtrai leurs vrais
- désormais <persName>Jacques</persName> et <persName>Maryse</persName> — je ne connaîtrai leurs vrais
- dans un quartier calme et prospère du <address>XVI<hi rend="E">e</hi> arrondissement</address> parisien
- dans un quartier calme et prospère du <address>XVI<hi rend="E">e</hi> arrondissement parisien</address>
Partenaires du projet
- LI : Jessica DURAND, Nathalie FRIBURGER et Denis MAUREL.
- CNRS-Nancy : Étienne PETITJEAN et Jean-Marie PIERREL.