Version française Ressources Corpus 80 jours

Corpus 80 jours

Une page plus récente se trouve sur le site Ortolang.

Présentation du corpus

Le corpus a été créé dans le cadre d’une étude contrastive des noms propres en traduction (Lecuit, 2013). De ce fait, il comporte un texte source en français, Le Tour du monde en quatre-vingts jours (Jules Verne, 1872), annoté au niveau des noms propres (mais aussi des noms relationnels et des adjectifs relationnels), grâce à l’outil CasSys et à certains transducteurs CasEN, développés par le LI (Friburger et Maurel, 2004). Et trois textes cibles, en anglais, allemand et serbe.

Les éléments de cette annotation ont été choisis parmi ceux proposés par la Text Encoding Initiative Consortium (TEI P5). Le texte-source (français) est ainsi annoté au niveau :

Des noms propres (3342 items) :
- [humain] (1856 items)
- [animal] (8 items)
- [organisation] (115 items)
- [lieu géographique naturel] (201 items)
- [axe de circulation] (63 items)
- [construction humaine] (68 items)
- [région administrative, ville] (836 items)
- [produit] (5 items)
- [vaisseau] (159 items)
- [journal] (23 items)
- [période historique] (3 items)
- [événement historique] (5 items)
Des noms relationnels : [nom relationnel] (197 items)
Des adjectifs relationnels : [adjectif relationnel] (161 items)

Il comporte également trois textes-cibles, des traductions anglaise, allemande et serbe (en alphabet latin) du roman.

Enfin, nous fournissons, en plus de ce corpus, des fichiers d’alignement, réalisés grâce à l’aligneur automatique multilingue XAlign (développé au Loria et intégré à la plateforme Unitex), puis corrigés manuellement par nos soins.

Ces fichiers, utilisables avec Unitex, permettent la visualisation de bi-textes, qui se présentent sous la forme d’une fenêtre divisée en deux parties, avec de part et d’autre les deux versions d’un même texte alignées horizontalement sur le plan des unités de traduction ou équivalents traductionnels.

Références

Sur la traduction des noms propres :
- Lecuit É., Maurel D., Vitas D. (2011), Les noms propres se traduisent-ils ? Étude d’un corpus multilingue, Corpus, 10:201-218.
- Lecuit É. (2012). Les tribulations d'un nom propre en traduction. Étude contrastive du nom propre et de sa traduction à partir d’un corpus aligné de dix langues européennes. Thèse de doctorat de linguistique, Université François-Rabelais de Tours.
- Lecuit É., Maurel D., Vitas D. (2015). A Multilingual Corpus for the Study of Toponyms in Translation. In Schnabel-Le Corre B., Löfström J. Challenges in Synchronic Toponymy: Structure, Context and Use. Francke A. Verlag. 235-246.
Sur les cascades de transducteurs :
- Friburger N., Maurel D. (2004). Finite-state transducer cascade to extract named entities in texts. Theoretical Computer Science. 313:94-104.
- Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de transducteurs autour de la reconnaissance des entités nommées. Traitement automatique des langues, 52(1):69-96.

Origine des ressources

Unitex (IGM, Université Paris-Est Marne-la-Vallée, Paumier, 2003)
CasSys et CasEN (Lifat, Friburger et Maurel)
XAlign (Loria, UMR 7503)

Nature des données

Corpus annoté (pour le français uniquement) et aligné, œuvre originale et traductions libres de droit.

Origine des données

Texte-source avant annotation :
- (Français) Le Tour du monde en 80 jours, Jules Verne (1872)
Textes-cibles :
- (Allemand) Reise um die Erde in 80 Tagen (date inconnue)
- (Anglais) Around the World in eighty Days (1873)
- (Serbe) Put oko sveta za 80 dana (1949)

Conditions d’utilisation

Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.

Utilisation

Le corpus se compose de cinq types de fichiers.

Un fichier PDF avec les quatre langues alignées
- Corpus80Jours.pdf
Un fichier XML contenant le texte du roman balisé comme indiqué ci-dessus, mais où les chevrons des balises name et w ont été remplacés par les entités XML correspondantes afin de permettre son chargement dans XAlign
- Corpus80JoursFrench_Xalign.xml
Un fichier XML contenant le texte du roman balisé comme indiqué ci-dessus pour une utilisation hors Xalign
- Corpus80JoursFrench.xml
Trois fichiers XML contenant chacun la traduction du roman dans chacune des trois langues présentées :
- Corpus80JoursEnglish.xml
- Corpus80JoursGerman.xml
- Corpus80JoursSerbian.xml
Trois fichiers XML d’alignement en bi-texte :
- Corpus80JoursFrenchEnglish.xml
- Corpus80JoursFrenchGerman.xml
- Corpus80JoursFrenchSerbian.xml

Les alignements sont utilisables sous Unitex. Pour cela, les fichiers sont à enregistrer au préalable dans le répertoire personnel Unitex :

Pour les quatre premiers fichiers, respectivement : Unitex/English/Corpus/Corpus80JoursEnglish.xml, Unitex/German/Corpus/Corpus80JoursGerman.xml, Unitex/French/Corpus/Corpus80JoursFrenchXalign.xml et Unitex/Serbian/Corpus/Corpus80JoursSerbian.xml.
Pour les trois autres fichiers, dans le répertoire Unitex/Xalign.

Fiche technique

Version 1.1
Conception : Émeline Lecuit, Denis Maurel et Duško Vitas
Format : XML-TEI
Codage des caractères : utf-8 (sans BOM)

Téléchargement

Le fichier PDF ci-dessous est disponible sous la licence Creative Commons CC-BY-NC-SA.

Cliquez ici : Télécharger le corpus 80 jours au format PDF (11/1/2016).

Le téléchargement ci-dessous nécessite l'acceptation de la licence LGPL-LR.

Cliquez ici : Télécharger les fichiers d'alignement du corpus 80 jours (11/1/2016).