SYNBIOTIC





Résumé


English Version



Le projet de recherche SYNBIOTIC vise à développer des formalismes et des outils informatiques permettant de spécifier un comportement spatial global et de le compiler automatiquement à travers une tour de langages intermédiaires dans des processus locaux de régulation cellulaire (régulation génétique, métabolique, signalisation). La motivation finale est de permettre l'exploitation des propriétés collectives d'une population bactérienne pour créer des biosystèmes artificiels répondant à divers besoins dans le domaine de la santé, des nanotechnologies, de l'énergie et de la chimie.

SYNBIOTIC s'inscrit dans le domaine des langages de programmation non conventionnels et de l'analyse de propriétés des systèmes dynamique, à l'interface de l'informatique et de l'ingénierie biologique. Il s'appuie sur les avancées de la biologie synthétique, les progrès réalisés dans la modélisation et la simulation de processus biologiques complexes, et sur le développement de nouvelles approches de la programmation permettant de faire face à de nouvelles classes d'application caractérisées par l'émergence d'un comportement global dans une grande population d'entités irrégulièrement et dynamiquement connectées (le calcul amorphe et le calcul autonome).

Objectif

La biologie synthétique est un domaine scientifique émergent qui concerne la conception et la fabrication banalisée et standardisée de composants et de systèmes biologiques sans correspondants naturels. Elle est actuellement en quête de principes de conception permettant une réalisation fiable et sécurisée à partir de composants biologiques réutilisables.

Dans ce contexte, l'objectif est de concevoir et développer les outils permettant de « compiler » (au sens de la compilation des langages de programmation) le comportement global d’une population, par exemple, de bactéries, en des processus cellulaires locaux à chaque entité. Notre motivation à très long terme est de permettre l'exploitation des propriétés collectives d'une population (bactérienne) pour créer des biosystèmes artificiels répondant à divers besoins dans le domaine de la santé, des nanotechnologies, de l'énergie et de la chimie verte. L'approche originale que nous proposons se fonde sur une tour de langages de programmation, dont le plus abstrait définit un modèle computationnel pour une population cellulaire et le plus primitif correspond à un agencement de séquences d’ADN. Chaque langage compile ses constructions propres vers le langage de la couche inférieure et ce, jusqu'au bioware (le « hardware biologique »). Cette approche, similaire à celle suivie avec succès dans le domaine de la synthèse d'architecture matérielle (chaîne de compilation vers le silicium), permet de combler le fossé existant entre la description d'un système au niveau d'abstraction pertinent pour l'application et la prise en compte de tous les détails de son implantation par des processus physico-chimiques. Elle permet de modulariser la conception d'un système, divisant les difficultés et isolant des niveaux d'abstraction qui peuvent évoluer indépendamment. Dans cette approche, un programme ne définit pas une fonction qui associe une sortie à une entrée mais spécifie un système dynamique (biologique) distribué qui essaie de maintenir des invariants en dépit de perturbations et des changements de l'environnement.

Synbiotic

SYNBIOTIC est un projet de recherche fondamentale à long terme qui s’inscrit dans le domaine à la fois des langages de programmation non conventionnels et dans l’analyse/validation de propriété de systèmes dynamiques. Il s’agit d’un projet informatique qui vise à utiliser les nouveaux supports de calcul fournis par les avancées de la biologie synthétique et non à les produire. SYNBIOTIC a pour objectif d’étendre les techniques et les outils développés dans la modélisation et la simulation de processus biologiques complexes et d’intégrer de nouvelles approches de la programmation (programmation spatiale, programmation amorphe et programmation autonome) afin de faire face à de nouvelles classes d'applications caractérisées par l'émergence d'un comportement global dans une grande population d’entités localisées et irrégulièrement interconnectées de manière dynamique.

Positionnement du projet

Une approche informatique en amont de l'ingénierie génétique. Si la plupart des études actuelles cherchent à formaliser, concevoir, caractériser et valider des composants biologiques réutilisables, nous nous positionnons en amont de cette étape. La biologie synthétique regroupe des stratégies scientifiques et des technologies très différentes qui incluent la conception et la construction de génomes, la conception de protéines, la synthèse de composés biochimiques par de nouvelles voies métaboliques et la construction de circuits de régulation génique dans des cellules et des micro-organismes. Pour ce qui nous concerne, nous faisons l’hypothèse qu’il existe des bibliothèques standardisées de comportements biochimiques élémentaires qui peuvent être composés dans une bactérie, comme par exemple les BioBricks.

Notre objectif est d'adresser la conception de grands systèmes biologiques par une approche langage, de la même manière que VHDL permet la conception de système de traitement de l’information à partir de portes et de blocs logiques élémentaires. Ce projet informatique repose sur trois hypothèses : l’apport des formalismes discrets, un processus de conception fondé sur la compilation d’une tour de langages et la prise en compte des aspects spatiaux. Des formalismes discrets. Notre première hypothèse est que des modèles informatiques discrets sont adéquats pour décrire des biosystèmes et parfois plus pertinents que des approches mathématiques traditionnelles comme les équations différentielles. Cette hypothèse est corroborée par l'important développement actuel des formalismes informatiques dans le domaine la biologie des systèmes. En particulier, ces formalismes sont plus à même de capturer de manière concise les aspects qualitatifs et quantitatifs des grands réseaux d'interactions biochimiques impliqués dans les processus biologiques.

Ces formalismes permettent de découpler les abstractions utilisés dans le processus de conception (signal, gradient, mémoire, propagation, information de position…) des processus biochimiques utilisés pour leur implémentation, de la même manière qu’un bit abstrait de manière robuste une implantation électrique dans une électronique à base de silicium. Par ailleurs, ces formalismes permettent d’aborder la question de la validation : que peut-on garantir sur les comportements du système biologique artificiel, quel est le domaine de viabilité du système, quels sont les perturbations de l’environnement qui sont tolérables, quels est la résilience du système, peut-on garantir que certains états son inatteignables, tracer les processus, tester les comportements attendus, etc. Une approche compilation. Notre seconde hypothèse est qu'à partir de ces formalismes, la compilation est une approche descendante plus souple que l'assemblage direct de composants biologiques prédéfinis. Le processus de compilation permet d'instancier des composants élémentaires génériques dans un organisme particulier, permet de prendre en compte des contraintes d'assemblage (comme l'évitement de cross-talk entre circuits de régulation) ainsi que la simplification et l'optimisation des circuits obtenus par assemblage. Cette approche de haut-niveau correspond à la synthèse d'un système à partir de ses spécifications et repose sur la possibilité de dériver le comportement des parties à partir du comportement d'un tout. Ce problème est notoirement plus simple que celui de l'inférence de propriétés globales à partir de comportements locaux (émergence) et a montré toute son utilité dans le domaine de la synthèse d'architecture, mais aussi dans le cadre de la programmation spatiale et de la programmation amorphe. Un des enjeux du projet est de montrer que ces techniques peuvent être appliquées avec succès à la synthèse de biosystèmes.

La prise en compte du spatial. Enfin, notre dernière hypothèse est que, même si pour l'instant la biologie synthétique se focalise sur la « programmation d'une seule bactérie », le développement de biosystèmes un tant soit peu complexe reposera sur le fonctionnement intégré de colonies bactériennes et donc sur la prise en compte d'interactions spatiales au sein d'une population de cellules différenciées. Il est en effet douteux qu'une cellule puisse supporter un nombre arbitraire de comportements artificiellement imposés. Au contraire, l'exemple des processus biologiques naturels montrent toute l'importance de l'organisation spatiale et de la compartimentalisation (membrane, vésicule, cargo, compartiment, cellule, biofilm, tissus, organe, etc.) permettant la spécialisation et le fonctionnement intégré au sein d'un système compris comme une écologie. Par ailleurs, la maîtrise des interactions spatiales ouvre la voie à une ingénierie du développement (« développement » au sens biologique du terme), ce qui permet de rêver à des applications qui vont bien au-delà de la conception de la cellule comme « usine chimique ». Un volet validation. Le positionnement du projet est résolument informatique et se concentre sur le développement de techniques de compilation et de validation en amont de l'ingénierie génétique. Cependant, afin de valider les outils développés, nous souhaitons les mettre en œuvre concrètement à travers leur utilisation à l'intérieur du projet par une application de morphogenèse et, à l'extérieur, par une équipe iGEM.

Un volet pédagogique. Outre cet aspect validation, l'implication d'étudiants dans ce projet nous semble remplir un volet pédagogique indispensable : nous y voyons l'opportunité d'attirer et d'initier des étudiants à un domaine stratégique. Ce volet pédagogique se complète par l'organisation d'une école permettant de réunir et de faire interagir des communautés scientifiques a priori éloignées (compilation, bioinformatique, synthèse d'architecture, biologie des systèmes, langages non-conventionnels). Cette action pédagogique est indispensable au vu de la complexité du domaine et de la fragmentation des expertises. Enfin des actions de présentation vers le grand public (par exemple à travers un site web comme Interstice ou Vivagora, et des débats publics comme le « Café du gène » organisé par Genopole Évry) sont nécessaires afin que la société civile puisse s'approprier de manière informée des enjeux et des impacts potentiels de ces nouvelles technologies.

Le positionnement français et européen. Si la France est présente dans le domaine de la biologie des systèmes, elle a tardé à investir le domaine de la biologie synthétique. Par exemple le Kenya, la Turquie, l'Espagne, la Suisse, l'Inde, la Chine… ont proposé des équipes à iGEM avant la France. La mobilisation de l'Europe dans ce domaine est plus importante mais se dévseloppe principalement à partir de la biologie. C'est principalement aux Etats-Unis, à partir du projet Amorphous Computing au MIT, que se développe l'idée que la « programmation des bactéries » est plus qu'une simple métaphore et doit reposer sur des outils informatiques de conception qui vont au-delà de techniques standardisées de génie génétique. L'Europe, et dans une moindre mesure la France, ont cependant des atouts pour se faire une place dans ce domaine de recherche. Nous sommes particulièrement présents dans le domaine des formalismes pour la modélisation et la simulation de réseaux de régulation et dans le domaine des modèles de programmation non-conventionnels (par exemple en Angleterre, un « Grand Challenge » est dédié aux modèles de calcul non conventionnels et ce thème est soutenu par le programme FET au niveau européen). Ces deux domaines constituent des fondations à partir desquels il est possible de développer des approches de synthèse de haut-niveau. Une des difficultés spécifiquement française est de reconnaitre le domaine des modèles de calculs non-conventionnel, la communauté étant surtout développée autour du calcul quantique. Les partenaires de ce projet de recherche sont particulièrement bien placés pour créer un réseau international fort à partir de leurs activités d'animation dans le domaine (voir en particulier la section 5.2 de ce document) et par leurs implications dans des montages de projets de collaborations internationales britanniques (proposition EPSRC de M. Gheorghe au programme « Grand Challenge GC7 ») et états-uniens (proposition PIRE de C. Teuscher auprès de la NSF ). Le projet déposé ici a aussi pour objectif de consolider et pérenniser ces liens.