Abliss
Automating Building from Literature of Signalling Systems
Abstract
G protein-coupled receptors (GPCR) are very good targets for drugs. Their presence in the cell membrane make them accessible to drugs, and these receptors are involved in the vast majority of cellular processes. Indeed, GPCR are targeted by more than 30% of marketed drugs. To increase the efficacy and decrease adverse side effects of these drugs, a better comprehension of GPCR signalling is necessary. Knowledge concerning the different receptors has drastically increased these last years. The downside of this phenomenon is the profusion of omics data and scientific papers, the integration of which is a real challenge.
The objective of ABLISS is the development of a method for building these signalling networks from available data as a whole: literature and large-scale datasets. The method will encompass two main components: (1) a natural language processing module, allowing to extract and format experimental results from scientific papers and (2) a knowledge-based method, allowing the inference of the network from these results. The framework will be applied to the deciphering of GPCR-triggered ß-arrestin- and ERK-dependent signalling.
A first workpackage will be devoted to the knowledge-based method. The principle will be the formalization in ASP (Answer Set Programming) of the reasoning that allows the expert deducing network elements from experimental results. We have developed a first prototype, and thus demonstrated the feasibility of our approach. In ABLISS, we will extend the rules and predicate database to cover more experiment types, but also to adapt the reasoning module to the predicate-arguments structures that can be automatically generated by the natural language processing module. We will also study the reliability of a deduced fact. Finally, we will develop abductive reasoning to propose experimental plan allowing verifying hypotheses within the network.
A second workpackage will concern the natural language processing module. During the preliminary work on knowledge-based network inference, the necessary manual extraction and formalization of experimental facts has appeared as a major limitation. We have shown, for a limited number of experimental results, that a transducer cascade allows extracting and formatting predicate-arguments structures directly from scientific publications. In ABLISS we will pursue this task, in particular through the development of a transducer cascade allowing extraction and formalization of experimental facts obtained through a large diversity of experiment types. Iteratively, we will ensure the completeness of this predicate ensemble. Finally, we will develop modules to complete the arguments of a predicate when these are not all present locally.
The third workpackage will apply the framework to the building of ERK- and ß-arrestin-dependent signalling triggered by different GPCR. A first reason for this choice is that the concerned scientific publications corpus is relatively modest (around 1300 publications), allowing a manual control of obtained results. A second reason is the expertise of the partner coordinating the project in this particular area. New knowledge hypothesized in the network will be validated experimentally.
The objective of ABLISS is the development of a method for building these signalling networks from available data as a whole: literature and large-scale datasets. The method will encompass two main components: (1) a natural language processing module, allowing to extract and format experimental results from scientific papers and (2) a knowledge-based method, allowing the inference of the network from these results. The framework will be applied to the deciphering of GPCR-triggered ß-arrestin- and ERK-dependent signalling.
A first workpackage will be devoted to the knowledge-based method. The principle will be the formalization in ASP (Answer Set Programming) of the reasoning that allows the expert deducing network elements from experimental results. We have developed a first prototype, and thus demonstrated the feasibility of our approach. In ABLISS, we will extend the rules and predicate database to cover more experiment types, but also to adapt the reasoning module to the predicate-arguments structures that can be automatically generated by the natural language processing module. We will also study the reliability of a deduced fact. Finally, we will develop abductive reasoning to propose experimental plan allowing verifying hypotheses within the network.
A second workpackage will concern the natural language processing module. During the preliminary work on knowledge-based network inference, the necessary manual extraction and formalization of experimental facts has appeared as a major limitation. We have shown, for a limited number of experimental results, that a transducer cascade allows extracting and formatting predicate-arguments structures directly from scientific publications. In ABLISS we will pursue this task, in particular through the development of a transducer cascade allowing extraction and formalization of experimental facts obtained through a large diversity of experiment types. Iteratively, we will ensure the completeness of this predicate ensemble. Finally, we will develop modules to complete the arguments of a predicate when these are not all present locally.
The third workpackage will apply the framework to the building of ERK- and ß-arrestin-dependent signalling triggered by different GPCR. A first reason for this choice is that the concerned scientific publications corpus is relatively modest (around 1300 publications), allowing a manual control of obtained results. A second reason is the expertise of the partner coordinating the project in this particular area. New knowledge hypothesized in the network will be validated experimentally.
Résumé du projet
Les récepteurs couplés aux protéines G (GPCR) sont des cibles de choix pour les médicaments. En effet, leur caractère membranaire les rend accessibles par voie sanguine, et ces récepteurs sont impliqués dans la majorité des processus cellulaires. De fait, plus de 30% des médicaments actuellement sur le marché ciblent des GPCR. Pour augmenter l’efficacité tout en diminuant les effets secondaires de ces médicaments, il est indispensable de mieux connaître la signalisation des GPCR. Les connaissances sur les différents récepteurs ont augmenté drastiquement ces dernières années. Mais cela entraîne une profusion de données omiques et d’articles scientifiques, dont l’intégration représente un véritable défi.
L’objectif de ABLISS est le développement d’une méthode pour reconstruire les réseaux de signalisation à partir de l’ensemble de ces données. La méthode comprendra deux composantes : (1) un module de traitement automatique des langues, permettant l’extraction des résultats expérimentaux dans les articles scientifiques et (2) une méthode de raisonnement à base de connaissances permettant d’inférer les réseaux à partir de ces données. La méthode sera appliquée à la compréhension de la signalisation ß-arrestine- et ERK-dépendante des récepteurs couplés aux protéines G.
Un premier workpackage sera consacré à la méthode à base de règles. Le principe est de formaliser en programmation logique ASP (Answer Set Programming) le raisonnement qui permet à l’expert de déduire des éléments du réseau de signalisation à partir de résultats expérimentaux. Puis l’ensemble des règles, ainsi qu’un ensemble de faits expérimentaux réels sont placés en entrée d’un module de raisonnement. Nous avons développé un premier prototype et ainsi démontré la faisabilité de la démarche. Dans le projet ABLISS, nous étendrons la base de règles pour prendre en compte plus de types d’expériences, mais également pour mieux adapter ce module de raisonnement aux structures prédicat-arguments qui peuvent être générées automatiquement par le module de traitement automatique des langues. Nous nous attacherons également à étudier la fiabilité d’un fait déduit, ce qui est particulièrement important dans le cas où des contradictions apparaissent dans les réseaux déduits. Enfin, nous développerons le raisonnement abductif, afin de construire des plans d’expérience pour valider des hypothèses sur le réseau.
Un deuxième workpackage sera consacré au module de traitement automatique des langues. Lors du travail préliminaire sur la méthode d’inférence de réseau, la nécessité de rechercher et formaliser manuellement les fait expérimentaux est apparue comme une limitation majeure. Nous avons montré que l’utilisation d’une cascade de transducteurs permettait d’extraire et de formaliser les structures prédicat-arguments de quelques types de résultats expérimentaux, directement à partir des publications scientifiques. Dans ABLISS, nous poursuivrons ce travail, notamment au travers de l’écriture d’une cascade pour l’extraction et la formalisation des faits expérimentaux obtenus à partir d’un grand nombre de types d’expériences. De manière itérative nous assurerons également la complétude de cet ensemble de prédicats. Enfin nous développerons des modules permettant de compléter les arguments de ces prédicats lorsque ceux-ci ne sont pas présents localement.
Le troisième workpackage sera consacré à l’application de la méthode à la reconstruction du réseau de signalisation ERK et ß-arrestine dépendant de plusieurs GPCR. Une première raison de ce choix est que le corpus de publications scientifiques concerné est relativement modeste (environ 1300 publications), permettant un contrôle manuel des résultats obtenus. Une deuxième raison est la bonne expertise de l’équipe coordinatrice du projet dans le domaine. Les éléments du réseau déduit seront validés expérimentalement.
L'action se réalisera du 1er octobre 2018 au 30 septembre 2022.
L’objectif de ABLISS est le développement d’une méthode pour reconstruire les réseaux de signalisation à partir de l’ensemble de ces données. La méthode comprendra deux composantes : (1) un module de traitement automatique des langues, permettant l’extraction des résultats expérimentaux dans les articles scientifiques et (2) une méthode de raisonnement à base de connaissances permettant d’inférer les réseaux à partir de ces données. La méthode sera appliquée à la compréhension de la signalisation ß-arrestine- et ERK-dépendante des récepteurs couplés aux protéines G.
Un premier workpackage sera consacré à la méthode à base de règles. Le principe est de formaliser en programmation logique ASP (Answer Set Programming) le raisonnement qui permet à l’expert de déduire des éléments du réseau de signalisation à partir de résultats expérimentaux. Puis l’ensemble des règles, ainsi qu’un ensemble de faits expérimentaux réels sont placés en entrée d’un module de raisonnement. Nous avons développé un premier prototype et ainsi démontré la faisabilité de la démarche. Dans le projet ABLISS, nous étendrons la base de règles pour prendre en compte plus de types d’expériences, mais également pour mieux adapter ce module de raisonnement aux structures prédicat-arguments qui peuvent être générées automatiquement par le module de traitement automatique des langues. Nous nous attacherons également à étudier la fiabilité d’un fait déduit, ce qui est particulièrement important dans le cas où des contradictions apparaissent dans les réseaux déduits. Enfin, nous développerons le raisonnement abductif, afin de construire des plans d’expérience pour valider des hypothèses sur le réseau.
Un deuxième workpackage sera consacré au module de traitement automatique des langues. Lors du travail préliminaire sur la méthode d’inférence de réseau, la nécessité de rechercher et formaliser manuellement les fait expérimentaux est apparue comme une limitation majeure. Nous avons montré que l’utilisation d’une cascade de transducteurs permettait d’extraire et de formaliser les structures prédicat-arguments de quelques types de résultats expérimentaux, directement à partir des publications scientifiques. Dans ABLISS, nous poursuivrons ce travail, notamment au travers de l’écriture d’une cascade pour l’extraction et la formalisation des faits expérimentaux obtenus à partir d’un grand nombre de types d’expériences. De manière itérative nous assurerons également la complétude de cet ensemble de prédicats. Enfin nous développerons des modules permettant de compléter les arguments de ces prédicats lorsque ceux-ci ne sont pas présents localement.
Le troisième workpackage sera consacré à l’application de la méthode à la reconstruction du réseau de signalisation ERK et ß-arrestine dépendant de plusieurs GPCR. Une première raison de ce choix est que le corpus de publications scientifiques concerné est relativement modeste (environ 1300 publications), permettant un contrôle manuel des résultats obtenus. Une deuxième raison est la bonne expertise de l’équipe coordinatrice du projet dans le domaine. Les éléments du réseau déduit seront validés expérimentalement.
L'action se réalisera du 1er octobre 2018 au 30 septembre 2022.
Lien vers le projet
Projet ANR-18-CE45-0003.
Partenaires du projet
- LIFAT : Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL
- Équipe BIOS (INRA) : Thomas BOULO, Pascale CRÉPIEUX, Anne POUPON, Éric REITER, Romain YVINEC
- LRI : Nicole BIDOIT, Philippe CHATALIC, Christine FROIDEVAUX