Secare
Segmenteur en chunks SECARE
Le système SECARE a été développé dans le cadre du projet ANR EPAC (Exploration de masse de documents audio pour l'extraction et le traitement de la parole conversationnelle). Utilisable avec la plate-forme libre Unitex complémentée par le système de gestion de cascades de transducteurs CasSys (distribué librement avec Unitex), il permet le parenthésage d'énoncés en chunks. Il a été développé plus particulièrement pour le parenthèsages de transcriptions de parole spontanée.
Le système considère en entrée des fichiers annotés en catégories morpho-syntaxiques (POS : Part of Speech) par le système LIA_TAGG développée par Frédéric Béchet et diffusée elle-aussi librement. Il consiste simplement en une cascade de transducteurs (cunks.conf) utilisable sous UniteX. D'autres cascades sont également livrées pour permettre une sortie formattée de la segmentation (formatAnalyse.conf et formatEPAC.conf)
Le système considère en entrée des fichiers annotés en catégories morpho-syntaxiques (POS : Part of Speech) par le système LIA_TAGG développée par Frédéric Béchet et diffusée elle-aussi librement. Il consiste simplement en une cascade de transducteurs (cunks.conf) utilisable sous UniteX. D'autres cascades sont également livrées pour permettre une sortie formattée de la segmentation (formatAnalyse.conf et formatEPAC.conf)
Description précise
- Manuel d'utilisation du système SECARE
- Description des formats d'entrées et sorties du système tels que définis dans le projet EPAC.
- Description scientifique du fonctionnement du système [LREC_2008-172].
Conditions d'utilisation du système
Vous pouvez télécharger et utiliser les cascades de transducteurs SECARE a toute fin utile. En cas d'utilisation dans un contexte scientifique, nous vous demandons comme seul engagement de citer un ou plusieurs des articles suivants, qui présentent respectivement SECARE (LREC 2008), CasSys (TALN 2008) et le projet global EPAC (LREC 2010).
Jean-Yves ANTOINE, Abdenour MOKRANE, Nathalie FRIBURGER (2008) Automatic rich annotation of large corpus of conversational transcribed speech, Proc. 8th European conference on Language Resources and Evaluation. LREC'2008, Marrakesh, Maroc [LREC_2008-172].
Abdenour MOKRANE, Jean-Yves ANTOINE, Nathalie FRIBURGER (2008) Cascades de transducteurs pour le chunking de la parole conversationelle :
l'utilisation de la plateforme CasSys dans le projet EPAC. Actes TALN'2008, Avignon, France
Yannick Estève, Thierry Bazillon, Jean-Yves Antoine, Frédéric Béchet, Jérôme Farinas (2010) The EPAC corpus: manual and automatic annotations of conversational speech in French broadcast news. Proc. 9th European conference on Language Resources and Evaluation, LREC’2010, Valetta, Malta, May 2010.
Jean-Yves ANTOINE, Abdenour MOKRANE, Nathalie FRIBURGER (2008) Automatic rich annotation of large corpus of conversational transcribed speech, Proc. 8th European conference on Language Resources and Evaluation. LREC'2008, Marrakesh, Maroc [LREC_2008-172].
Abdenour MOKRANE, Jean-Yves ANTOINE, Nathalie FRIBURGER (2008) Cascades de transducteurs pour le chunking de la parole conversationelle :
l'utilisation de la plateforme CasSys dans le projet EPAC. Actes TALN'2008, Avignon, France
Yannick Estève, Thierry Bazillon, Jean-Yves Antoine, Frédéric Béchet, Jérôme Farinas (2010) The EPAC corpus: manual and automatic annotations of conversational speech in French broadcast news. Proc. 9th European conference on Language Resources and Evaluation, LREC’2010, Valetta, Malta, May 2010.
Téléchargement
Pour télécharger nos ressources, il faut accepter les termes de la licence LGPL-LR, dont le texte est rappelé sur ce site.
Cliquez ici : Télécharger Secare.
Cliquez ici : Télécharger Secare.