Temporal
Projet soutenu par la MSH Val de Loire
TEMPORAL
Construction d’un corpus numérique oral annoté en référence et coréférence temporelle
Résumé du projet
Le projet TEMPORAL vise à la construction d’un corpus numérique oral annoté en référence et coréférence temporelle sans équivalent à l’heure actuelle. Alors que les avancées qu’a connues l’ingénierie des langues ont ouvert la porte à des applications efficaces en termes de recherche d’information langagière, la question du repérage temporel d’événements dans des documents (textuels ou sonore) reste ouverte, de même que celle de leurs relations (coréférence temporelle). Elle est pourtant essentielle pour nombre d’applications en recherche d’information.
Le corpus TEMPORAL sera diffusé librement sous licence Creative Commons et constituera la première ressource de ce type en langue française. Par sa richesse d’annotation, il sera utile aussi bien aux chercheurs en sciences du langage (linguistique et linguistique de corpus) qu’à ceux du traitement automatique des langues (ingénierie du langage).
Nous reprenons en ce sens la démarche et le partenariat du projet Ancor qui a donné lieu à la création du plus grand corpus oral (488 000 mots) annoté en coréférence nominale actuellement disponible, toutes langues confondues. Afin de donner la même visibilité au corpus TEMPORAL, ce dernier portera sur les mêmes données que le corpus ANCOR_Centre (nouvelle couche d’annotation).
Le corpus TEMPORAL sera diffusé librement sous licence Creative Commons et constituera la première ressource de ce type en langue française. Par sa richesse d’annotation, il sera utile aussi bien aux chercheurs en sciences du langage (linguistique et linguistique de corpus) qu’à ceux du traitement automatique des langues (ingénierie du langage).
Nous reprenons en ce sens la démarche et le partenariat du projet Ancor qui a donné lieu à la création du plus grand corpus oral (488 000 mots) annoté en coréférence nominale actuellement disponible, toutes langues confondues. Afin de donner la même visibilité au corpus TEMPORAL, ce dernier portera sur les mêmes données que le corpus ANCOR_Centre (nouvelle couche d’annotation).
Partenaires du projet
- LI : Jean-Yves ANTOINE, Anaïs LEFEUVRE, Denis MAUREL et Agata SAVARY.
- LLL : Lotfi ABOUDA, Iris ESHKOL-TARAVELLA et Emmanuel SCHANG