Version française Anciens projets Variling

Variling

Une présentation complète du projet Prolex, ainsi qu'une mise à disposition de CasEN, se trouve sur le site Ortolang.

Documents

Eshkol I., Gazeau M. A., Maurel D. (2008), Balisage XML des entités nommées et dénommantes du corpus Eslo, First International Workshop on Cataloguing and Encoding of Spoken Language Data (CatCod 2008), 4-5 décembre, Orléans.

Maurel D., Friburger N., Eskhol I., Antoine J.-Y. (2009) Explorer des corpus à l’aide de CasSys : application au corpus d’Orléans, LingCorp’2009, Lorient.

Maurel D., Friburger N., Eshkol I. (2009), Who are you, you who speak? Transducer cascades for information retrieval, 4th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 6-8 novembre, 220-223.

Eshkol I., Maurel D., Friburger N. (2010), Eslo : from transcription to speakers' personal information annotation, Seventh language resources and evaluation conference (LREC 2010), Malte, 19-21 mai.

Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de transducteurs autour de la reconnaissance des entités nommées, à paraître dans la revue TAL.

Résumé du projet

Voir aussi le site VARILING.

L’un des obstacles récurrents qui se présente dans l’exploitation collective des corpus oraux concerne la protection des personnes qui ont accepté d’être sollicités et de répondre. Comme le prévoient les engagements pris par le chercheur, sous forme contractuelle, l’enquêté a le droit de conserver son anonymat ce qui suppose l’effacement ou le bipage de toutes les indications qui permettraient de lever l’anonymat.

Il en va de même pour les personnes mentionnées au cours de l’interview qui sont en droit d’exiger la protection de leur vie privée.Dans ce cadre, et en prolongement des recherches entreprises dans la base 7, ESLO 1 et ESLO 2 doivent servir de test aux programmes développés dans le cadre du LI concernant la reconnaissance des entités nommées.En recourant à CasSys, un outil qui traite des corpus Unitex et qui permet, entre autres, de détecter les noms propres avec un taux d’efficience supérieur à 90 %, on soumettra les résultats obtenus aux corpus oraux avec deux objectifs :

tester sur du français oral transcrit des outils élaborés sur du français écrit,
accroître la définition des entités nommées à des catégories indépendantes du nom propre (le maire d’Orléans en 2000 est l’exact équivalent d’un nom propre d’un point de vue juridique et, peut-être, philosophique).

Sur les centaines d’heures à traiter, on peut concevoir que tous les problèmes de l’anonymisation seront représentés ce qui permettra la confection d’un vade mecum des éléments à prendre en considération à cette étape du travail :

détection et sélection des noms propres (tous ne sont pas à anonymiser : la Loire et Jeanne d’Arc ne sont pas à inclure dans l’effacement),
repérage des éléments d’identification hors nom propre (profession, lien de parenté, participation à un fait divers),
coordination à distance des éléments d’identification (un professeur ne permet pas d’identification, il n’en va pas de même s’il est précisé par ailleurs que c’est un professeur d’Université, spécialisé en électronique et que c’est une femme, auquel cas on peut arriver à un singleton).

L'action s'est réalisée du 1er janvier 2007 au 31 décembre 2009.

Partenaires du projet

CORAL (Centre Orléanais de Recherche en Anthropologie et Linguistique)
Équipe CELITH Centre de linguistique théorique, Modèle Dynamique Corpus (MoDyCo)
Laboratoire Langues et Civilisations à Tradition Orale (CNRS/LACITO)
LI : Denis MAUREL et Jean-Yves ANTOINE.