Abliss
Automating Building from Literature of Signalling Systems
Abstract
The objective of ABLISS is the development of a method for building these signalling networks from available data as a whole: literature and large-scale datasets. The method will encompass two main components: (1) a natural language processing module, allowing to extract and format experimental results from scientific papers and (2) a knowledge-based method, allowing the inference of the network from these results. The framework will be applied to the deciphering of GPCR-triggered ß-arrestin- and ERK-dependent signalling.
A first workpackage will be devoted to the knowledge-based method. The principle will be the formalization in ASP (Answer Set Programming) of the reasoning that allows the expert deducing network elements from experimental results. We have developed a first prototype, and thus demonstrated the feasibility of our approach. In ABLISS, we will extend the rules and predicate database to cover more experiment types, but also to adapt the reasoning module to the predicate-arguments structures that can be automatically generated by the natural language processing module. We will also study the reliability of a deduced fact. Finally, we will develop abductive reasoning to propose experimental plan allowing verifying hypotheses within the network.
A second workpackage will concern the natural language processing module. During the preliminary work on knowledge-based network inference, the necessary manual extraction and formalization of experimental facts has appeared as a major limitation. We have shown, for a limited number of experimental results, that a transducer cascade allows extracting and formatting predicate-arguments structures directly from scientific publications. In ABLISS we will pursue this task, in particular through the development of a transducer cascade allowing extraction and formalization of experimental facts obtained through a large diversity of experiment types. Iteratively, we will ensure the completeness of this predicate ensemble. Finally, we will develop modules to complete the arguments of a predicate when these are not all present locally.
The third workpackage will apply the framework to the building of ERK- and ß-arrestin-dependent signalling triggered by different GPCR. A first reason for this choice is that the concerned scientific publications corpus is relatively modest (around 1300 publications), allowing a manual control of obtained results. A second reason is the expertise of the partner coordinating the project in this particular area. New knowledge hypothesized in the network will be validated experimentally.
Résumé du projet
L’objectif de ABLISS est le développement d’une méthode pour reconstruire les réseaux de signalisation à partir de l’ensemble de ces données. La méthode comprendra deux composantes : (1) un module de traitement automatique des langues, permettant l’extraction des résultats expérimentaux dans les articles scientifiques et (2) une méthode de raisonnement à base de connaissances permettant d’inférer les réseaux à partir de ces données. La méthode sera appliquée à la compréhension de la signalisation ß-arrestine- et ERK-dépendante des récepteurs couplés aux protéines G.
Un premier workpackage sera consacré à la méthode à base de règles. Le principe est de formaliser en programmation logique ASP (Answer Set Programming) le raisonnement qui permet à l’expert de déduire des éléments du réseau de signalisation à partir de résultats expérimentaux. Puis l’ensemble des règles, ainsi qu’un ensemble de faits expérimentaux réels sont placés en entrée d’un module de raisonnement. Nous avons développé un premier prototype et ainsi démontré la faisabilité de la démarche. Dans le projet ABLISS, nous étendrons la base de règles pour prendre en compte plus de types d’expériences, mais également pour mieux adapter ce module de raisonnement aux structures prédicat-arguments qui peuvent être générées automatiquement par le module de traitement automatique des langues. Nous nous attacherons également à étudier la fiabilité d’un fait déduit, ce qui est particulièrement important dans le cas où des contradictions apparaissent dans les réseaux déduits. Enfin, nous développerons le raisonnement abductif, afin de construire des plans d’expérience pour valider des hypothèses sur le réseau.
Un deuxième workpackage sera consacré au module de traitement automatique des langues. Lors du travail préliminaire sur la méthode d’inférence de réseau, la nécessité de rechercher et formaliser manuellement les fait expérimentaux est apparue comme une limitation majeure. Nous avons montré que l’utilisation d’une cascade de transducteurs permettait d’extraire et de formaliser les structures prédicat-arguments de quelques types de résultats expérimentaux, directement à partir des publications scientifiques. Dans ABLISS, nous poursuivrons ce travail, notamment au travers de l’écriture d’une cascade pour l’extraction et la formalisation des faits expérimentaux obtenus à partir d’un grand nombre de types d’expériences. De manière itérative nous assurerons également la complétude de cet ensemble de prédicats. Enfin nous développerons des modules permettant de compléter les arguments de ces prédicats lorsque ceux-ci ne sont pas présents localement.
Le troisième workpackage sera consacré à l’application de la méthode à la reconstruction du réseau de signalisation ERK et ß-arrestine dépendant de plusieurs GPCR. Une première raison de ce choix est que le corpus de publications scientifiques concerné est relativement modeste (environ 1300 publications), permettant un contrôle manuel des résultats obtenus. Une deuxième raison est la bonne expertise de l’équipe coordinatrice du projet dans le domaine. Les éléments du réseau déduit seront validés expérimentalement.
L'action s'est réalisée du 1er octobre 2018 au 31 juillet 2023.
Lien vers le projet
Partenaires du projet
- LIFAT : Jean-Yves ANTOINE, Sandy CHÉRY, Nathalie FRIBURGER, Denis MAUREL
- Équipe BIOS (INRA) : Pascale CRÉPIEUX, Xavier LERAY, Anne POUPON, Éric REITER
- LRI : Nicole BIDOIT, Philippe CHATALIC, Aziza FILALI, Christine FROIDEVAUX
Résultats du WP2, réalisé à l'université de Tours
- Les scripts PHP
- Les fichiers d'exemples
- Le package linguistique
Téléchargements
Il est recommandé de mettre à jour Unitex. Il faut obligatoirement travailler avec la version stable 3.2 ou une version ultérieure. Depuis la version 3.2, Unitex permet une utilisation efficace des scripts utilisant des programmes Unitex (voir le chapitre 13 du manuel).
Pour télécharger les résultats du WP2 du projet Abliss, il faut accepter les termes des licences Creative Commons CC-BY-SA pour les fichiers, LGPL pour les programmes et LGPL-LR, dont le texte est rappelé sur ce site, pour les ressources.
- Cliquez ici : pour télécharger le fichier RapportFinalWP2Abliss.pdf (27/09/2023).
- Cliquez ici : pour télécharger le fichier scriptsExempleOpenAcces.zip (27/09/2023).
Il est possible d'adapter les cascades Abliss en utilisant l'interface d'Unitex. Pour cela, il faut ouvrir le fichier scripts.zip, puis le fichier Abliss_lingpkg.zip qui s'y trouve, et, enfin, le dossier resource et fusionner le dossier English qui s'y trouve avec le dossier English de votre répertoire personnel Unitex. Les fichiers seront placés directement dans les bon dossiers.