Partager

Selexini

Induction de lexiques sémantiques pour l'interprétabilité et la diversité en traitement de textes

  Logo LIS   Logo LISN


Résumé du projet

Le deep learning constitue une révolution majeure en intelligence artificielle dans de nombreux domaines, et le traitement automatique des langues (TAL) n’y échappe pas. Des modèles de langue tels que BERT et GPT-3 font désormais la une des journaux grâce à des performances similaires voire meilleures que celles des humains dans des tâches complexes telles que la génération et la compréhension de textes.
L'enthousiasme actuel pour le deep learning en TAL rencontre des limites. D'une part, l'opacité des modèles neuronaux rend leur comportement difficile à interpréter. D'autre part, l'évaluation via des benchmarks a tendance à ignorer les biais de ceux-ci, limitant la robustesse et la couverture des généralisations apprises, et engendrant une faible diversité dans le domaine en général.

Le but du projet SELEXINI est de relever ces défis via le développement de méthodes d'induction faiblement supervisée d'un lexique sémantique à partir de corpus bruts, qui sera alors intégré dans des modèles de traitement sémantique du texte. Les unités lexicales sont considérées comme des abstractions utiles permettant à la fois de représenter des phénomènes linguistiques complexes (p.ex. la polysémie, la similarité, les expressions polylexicales) à l'aide d'étiquettes interprétables, tout en évitant la lourdeur et l'opacité des embeddings contextuels qui représentent chaque occurrence sous la forme d'un vecteur distinct. De plus, notre lexique induit combine des représentations continues (embeddings, clusters) et symboliques (étiquettes). Il couvre des unités mono- et polylexicales, leurs sens et leurs cadres sémantiques (arguments, rôles).

Ainsi, nous proposons un nouveau point de vue sur l'interprétabilité "par construction", potentiellement complémentaire aux méthodes d'inspection de modèles neuronaux. L'évaluation du lexique induit se fera par intégration dans des tâches aval qui requièrent des informations sémantiques: compréhension de textes et identification d'expressions polylexicales.

Le protocole expérimental évaluera la complémentarité entre le corpus et le lexique sur des phénomènes divers, ainsi que l'interprétabilité et l'utilité des résultats pour des utilisateurs non-experts. Cette approche devrait accroître l'interprétabilité des modèles et leur couverture sur des phénomènes diversifiés (par exemple, des éléments rares ou non vus dans un corpus d'entraînement).


Financement du projet

Projet ANR-21-CE23-0033.

Dates: 01/03/2022 - 01/02/2026.


Partenaires du projet

  • ATILF : Mathieu CONSTANT, Yannick PARMENTIER, Alain POLGUÈRE
  • LIFAT : Jean-Yves ANTOINE, Cyril de RUNZ, Arnaud SOULET
  • LIS : Frédéric BÉCHET, José DEULOFEU, Benoit FAVRE, Abdellah FOURTASSI, Alexis NASR, Carlos RAMISCH
  • LISN : Cyril GROUIN, Kim GUERDES, Agata SAVARY
  • LLF : Lucie BARQUE, Timothée BERNARD, Marie CANDITO, Benoit CRABBÉ, Guillaume WISNIEWSKI