Istex
Participation à l'équipement d’excellence Istex
Reconnaissance et balisage des entités nommées dans des textes scientifiques
La dernière version française de CasEN est disponible sur le site Ortolang.
Résumé du projet
Ce projet est financé par le projet Istex (Initiative d’excellence en Information scientifique et technique), un équipement d’excellence validé dans le cadre des investissements d’avenir. Son but est d'offrir tous les moyens accessibles de consultation et d’analyse aujourd’hui disponibles dans toutes les communautés de la Science.
Ce projet fait suite à la réalisation d'un système de cascade de transducteurs, le système CasEN, sur la plateforme Unitex, réalisée dans le cadre des projet ANR Variling, FEDER Région Centre Entités nommées et nommables et Ortolang. Cette cascade est disponible sur ce site (ci-dessous) sous licence libre LGPL-LR.
Les projets Ortolang et Istex, ont permis la réalisation d'une cascade pour le français dont les étiquettes sont basées sur la TEI. Mais ce projet porte aussi (et essentiellement) sur des textes rédigés en anglais, ce qui a donné lieu à la création d'une nouvelle cascade destinée à ce corpus et appelée sans doute à s'étendre par la suite sur d'autres corpus anglophones.
L'action s'est réalisée du 15 septembre 2014 au 31 décembre 2017.
Les résultats sont disponibles sur le site Istex.
Ce projet fait suite à la réalisation d'un système de cascade de transducteurs, le système CasEN, sur la plateforme Unitex, réalisée dans le cadre des projet ANR Variling, FEDER Région Centre Entités nommées et nommables et Ortolang. Cette cascade est disponible sur ce site (ci-dessous) sous licence libre LGPL-LR.
Les projets Ortolang et Istex, ont permis la réalisation d'une cascade pour le français dont les étiquettes sont basées sur la TEI. Mais ce projet porte aussi (et essentiellement) sur des textes rédigés en anglais, ce qui a donné lieu à la création d'une nouvelle cascade destinée à ce corpus et appelée sans doute à s'étendre par la suite sur d'autres corpus anglophones.
L'action s'est réalisée du 15 septembre 2014 au 31 décembre 2017.
Les résultats sont disponibles sur le site Istex.
Les étiquettes insérées
Les étiquettes insérées par la version Istex de CasEN sont extraites de la Text Encoding Initiative (TEI). Elles sont au nombre de dix. En voici la liste :
(les personnes) (les lieux administratifs) (les lieux géographiques) (les organisations), dont (les financeurs et les projets) (les hébergeurs de ressources) (les années, décennies, siècles et millénaires) - (les URL)
- (les citations avec renvoi vers la bibliographie)
(les citations dans le texte)
Évaluation
La cascade pour les textes en anglais a été évaluée fin 2015 sur 49 documents contenant 5 414 entités nommées. Celle pour les textes en français a été évaluée fin 2017 sur 34 documents contenant 2 973 entités nommées.
Nous présentons les résultats en utilisant la variante pondérée du slot error rate (SER) (Makhoul et al., 1999) utilisée lors de la campagne Etape. Le principe de base est de fournir un taux d'erreur sur l'ensemble des entités de référence. La base de calcul est donc le nombre d'entités, et non pas le nombre de mots contenus dans les entités de référence. Pour cette variante du slot error rate, on peut distinguer trois types d'erreurs :
Nous présentons les résultats en utilisant la variante pondérée du slot error rate (SER) (Makhoul et al., 1999) utilisée lors de la campagne Etape. Le principe de base est de fournir un taux d'erreur sur l'ensemble des entités de référence. La base de calcul est donc le nombre d'entités, et non pas le nombre de mots contenus dans les entités de référence. Pour cette variante du slot error rate, on peut distinguer trois types d'erreurs :
- les insertions (I), qui sont des entités détectées par notre système et qui n'ont aucun mot commun avec une entité des textes de référence
- les suppressions (D), qui sont des entités des textes de référence totalement manquées par le système
- et les entités de référence substituées, qui sont des entités détectées par notre système correspondant de façon incorrecte à des entités des textes de référence ; les entités substituées correspondent, soit à un typage incorrect (T), soit à des balises mal placées (E), soit aux deux erreurs à la fois (TE)
Nous comptons de plus :
- R l'ensemble des entités des textes de référence
- S l'ensemble des entités détectées par notre système
#I | #D | #T | #E | #TE | #S | #R | |
eng | 191 | 437 | 89 | 68 | 48 | 2349 | 2595 |
fra | 305 | 555 | 26 | 113 | 106 | 2167 | 2973 |
Ce décompte nous permet de calculer le taux d'erreur SER, le rappel et la précision, ainsi que la précision du typage et celle du balisage. Nous attribuons 1 point par erreur I, D ou TE et 0,5 point par erreur T ou E.
eng | fra | ||
SER | (I+D+0,5T+0,5E+TE) /R | 38.6% | 34.8% |
Rappel | (S - I) /R | 55.7% | 62.6% |
Précision | (S - I) /S | 91.5% | 85.9% |
Précision du typage | (S - I - T - TE) /S | 85.6% | 79.8% |
Précision du balisage | (S - I - E - TE) /S | 79.5% | 75.8% |
CasEN, version Istex
La cascade CasEN en anglais et le guide d'annotation sont disponibles ici.Pour la cascade en français, il faut télécharger la version TEI de CasEN et la compléter par de nouvelles cascades, disponibles aussi ici.
Attention : la version Istex obéit au guide et reconnaît de ce fait beaucoup moins d'entités nommées que la version TEI, qui est actuellement la version complète.
Partenaires du projet
- LI : Nathalie FRIBURGER, Anubhav GUPTA et Denis MAUREL
- CNRS-Nancy : Étienne PETITJEAN et Jean-Marie PIERREL
- INIST : Pascal CUXAC, Claire FRANCOIS, Enza MORALE, Patrice RINGOT, Laurent SCHMITT, Nicolas THOUVENIN et Angel TURRI
- Ergonotics : Gilles VOLLANT