Corpus 80 jours

LLL Lifat Faculté de mathématiques - Belgrade
 

Présentation du corpus

Le corpus a été créé dans le cadre d’une étude contrastive des noms propres en traduction (Lecuit, 2013). De ce fait, il comporte un texte source en français, Le Tour du monde en quatre-vingts jours (Jules Verne, 1872), annoté au niveau des noms propres (mais aussi des noms relationnels et des adjectifs relationnels), grâce à l’outil CasSys et à certains transducteurs CasEN, développés par le LI (Friburger et Maurel, 2004).

Les éléments de cette annotation ont été choisis parmi ceux proposés par la Text Encoding Initiative Consortium (TEI P5). Le texte-source (français) est ainsi annoté au niveau :
  • Des noms propres (3342 items) :
    • [humain] (1856 items)
    • [animal] (8 items)
    • [organisation] (115 items)
    • [lieu géographique naturel] (201 items)
    • [axe de circulation] (63 items)
    • [construction humaine] (68 items)
    • [région administrative, ville] (836 items)
    • [produit] (5 items)
    • [vaisseau] (159 items)
    • [journal] (23 items)
    • [période historique] (3 items)
    • [événement historique] (5 items)
  • Des noms relationnels : [nom relationnel] (197 items)
  • Des adjectifs relationnels : [adjectif relationnel] (161 items)
Il comporte également trois textes-cibles, des traductions anglaise, allemande et serbe (en alphabet latin) du roman.

Enfin, nous fournissons, en plus de ce corpus, des fichiers d’alignement, réalisés grâce à l’aligneur automatique multilingue XAlign (développé au Loria et intégré à la plateforme Unitex), puis corrigés manuellement par nos soins.

Ces fichiers, utilisables avec Unitex, permettent la visualisation de bi-textes, qui se présentent sous la forme d’une fenêtre divisée en deux parties, avec de part et d’autre les deux versions d’un même texte alignées horizontalement sur le plan des unités de traduction ou équivalents traductionnels.
 

Références

Origine des ressources

  • Unitex (IGM, Université Paris-Est Marne-la-Vallée, Paumier, 2003)
  • CasSys et CasEN (Lifat, Friburger et Maurel)
  • XAlign (Loria, UMR 7503)

Nature des données

Corpus annoté (pour le français uniquement) et aligné, œuvre originale et traductions libres de droit.
 

Origine des données

Conditions d’utilisation

Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.
 

Utilisation

Le corpus se compose de cinq types de fichiers.
  • Un fichier PDF avec les quatre langues alignées
    • Corpus80Jours.pdf
  • Un fichier XML contenant le texte du roman balisé comme indiqué ci-dessus, mais où les chevrons des balises name et w ont été remplacés par les entités XML correspondantes afin de permettre son chargement dans XAlign
    • Corpus80JoursFrench_Xalign.xml
  • Un fichier XML contenant le texte du roman balisé comme indiqué ci-dessus pour une utilisation hors Xalign
    • Corpus80JoursFrench.xml
  • Trois fichiers XML contenant chacun la traduction du roman dans chacune des trois langues présentées :
    • Corpus80JoursEnglish.xml
    • Corpus80JoursGerman.xml
    • Corpus80JoursSerbian.xml
  • Trois fichiers XML d’alignement en bi-texte :
    • Corpus80JoursFrenchEnglish.xml
    • Corpus80JoursFrenchGerman.xml
    • Corpus80JoursFrenchSerbian.xml
Les alignements sont utilisables sous Unitex. Pour cela, les fichiers sont à enregistrer au préalable dans le répertoire personnel Unitex :
  • Pour les quatre premiers fichiers, respectivement : Unitex/English/Corpus/Corpus80JoursEnglish.xml, Unitex/German/Corpus/Corpus80JoursGerman.xml, Unitex/French/Corpus/Corpus80JoursFrenchXalign.xml et Unitex/Serbian/Corpus/Corpus80JoursSerbian.xml.
  • Pour les trois autres fichiers, dans le répertoire Unitex/Xalign.

Fiche technique

  • Version 1.1
  • Conception : Émeline Lecuit, Denis Maurel et Duško Vitas
  • Format : XML-TEI
  • Codage des caractères : utf-8 (sans BOM)

Téléchargement

Le fichier PDF ci-dessous est disponible sous la licence Creative Commons CC-BY-NC-SA.
Le téléchargement ci-dessous nécessite l'acceptation de la licence LGPL-LR.