Version française Ressources Ancor-Centre

Ancor-Centre

Description des corpus

Dans le cadre du projet Ancor, le Laboratoire d'Informatique de l'Université de Tours et le Laboratoire ligérien de linguistique, université d'Orléans et de Tours mettent à disposition une collection de corpus de français parlé annotés en coréférence sous une licence Creative Commons.

Cet ensemble de corpus concerne exclusivement l'oral. Il comporte au total 488 000 mots et il est réparti entre quatre corpus transcrits préalablement au projet. Les deux premiers sont extraits du corpus Eslo, une enquête socilinguistique à Orléans et comporte essentiellement des interviews. Les deux autres sont des dialogues interactifs.

CO2 - 35 000 mots - interviews sociolinguistiques
ESLO - 417 000 mots - interviews sociolinguistiques
OTG - 26 000 mots - dialogues interactifs recueillis dans un office de tourisme
Acccueil_UBS - 10 000 mots - dialogues interactifs recueillis auprès du standard téléphonique d'une université

Une description détaillée est aussi disponible ici. Ce corpus est diffusé également via la Banque de données parole et langage (SLDR/ORTOLANG).

Fiche technique résumée

Nom et version du corpus : ANCOR_Centre — Version 1.1 (26 octobre 2014)
Fournisseur : Laboratoire d'Informatique de l'Université de Tours, le Laboratoire ligérien de linguistique, université d'Orléans et de Tours et le Lattice (CNRS, École Normale Supérieure et Université Paris 3)
Concepteurs : Judith Muzerelle, Anaïs Lefeuvre, Aurore Pelletier, Emmanuel Schang, Jean-Yves Antoine
Type de corpus : Annotation en coréférences et anaphores associatives de trois corpus de parole spontanée transcrite : ESLO (et CO2) sortie site (interview sociolinguistique), OTG (dialogue oral homme-homme finalisé), Accueil_UBS (dialogue oral finalisé au téléphone)
Contenu du corpus : 30,5 h d'enregistrement — 487 000 mots — 116 000 mentions - 51 000 relations de coréférence ou anaphores - Transcriptions orthographiques au format .ac GLOZZ et annotations déportées au format .aa GLOZZ ou également annotation intégrée directement utilisable pour des méthodes d'apprentissage automatique
Licence de distribution : Les corpus OTG et Accueil_UBS sont sous licence Creative Commons CC-BY-SA et les corpus extraits du corpus Eslo sont sous licence Creative Commons CC-BY-NC-SA
Annotations et révisions : Judith Muzerelle (LLL) et Aurore Pelletier (LLL) ; corrections automatiques par Anaïs Lefeuvre (LI)
Format annotations intégrées : Adèle Désoyer (LATTICE), Frédéric Landragin (LATTICE), Isabelle TELLIER (LATTICE)
Évaluation fiabilité : Jeanne Villaneau (IRISA), Iris Eshkol (LLL), Denis Maurel (LI), Judith Muzerelle (LLL), Anaïs Lefeuvre (LI), Jean-Yves Antoine (LI), Emmanuel Schang (LLL)
Financement - Principal : Région Centre (APR-IA 2012 - 90 000 €)
Complémentaires : Consortium IRCOM (1 500 €) et ANR Orfeo (2 500 €)

Téléchargement

Le téléchargement ci-dessous nécessite l'acceptation de la licence Creative Commons CC-BY-SA.
Cliquez ici : Télécharger le corpus Ancor-Centre-CC-BY-SA (31/10/2014).

Le téléchargement suivant nécessite l'acceptation de la licence Creative Commons CC-BY-NC-SA.
Cliquez ici : Télécharger le corpus Ancor-Centre-CC-BY-NC-SA (31/10/2014).

La licence Creative Commons impose d'attribuer les auteurs de la ressource en les citant. Pour nous citer :

Schang E., Boyer A., Muzerelle J., Antoine J.-Y., Eshkol I., Maurel D. (2011), Coreference and Anaphoric Annotations for Spontaneous Speech Corpora In French, Proc. 8th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC 2011), 6-7 octobre, Faro, Portugal.
Muzerelle J., E. Schang E., Antoine J.-Y., Eshkol I., Maurel D., Boyer A., Nouvel D. (2012). Annotations en chaînes de coréférences et anaphores dans un corpus de discours oral spontané en français. Actes 3ème Congrès Mondial de Linguistique Française (CMLF 2012), Lyon, 4-7 juillet.
Muzerelle J., Lefeuvre A., Antoine J.-Y., E. Schang E., Maurel D., Villaneau J., Eshkol I. (2013). ANCOR : premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. TALN 2013. Les Sables d'Olonnes.

English presentation

ANCOR_Centre, is a French-speaking corpus annotated with coreference and anaphora relations. With a total of 488,000 lexical units, ANCOR_Centre is the largest coreference corpora available for French.

This ANCOR_Centre corpus focuses exclusively on spoken language. Although it can not be considered as a balanced corpus, it aims at representing a certain variety of spoken types. It consists of four different spoken corpora that were already transcribed :

Two of them have been extracted from the ESLO corpus, which collects sociolinguistic interviews with a restricted interactivity.
On the opposite, OTG and Accueil_UBS concern highly interactive Human-Human dialogues. These last two corpora differ by the media of interaction: direct conversation or phone call.

All of these corpora are freely distributed under a Creative Commons license. You will be able to download the resource from november 1st, 2013.