Les missions de GIPSci
Le CATI GIPSci a pour finalité d’améliorer la gestion, l’analyse et la valorisation des données au service de la communauté scientifique plante et arbre d’INRAE. Il vise à développer et mettre à disposition des outils, chaînes de traitement et systèmes d’information pour les unités de BAP, Ecodiv et GEVES. Les axes de travail abordent des enjeux tels que les flux de données expérimentales, l’ingénierie des connaissances en graphe, la pangénomique et la génétique quantitative.
Les missions du CATI GIPSci sont basées sur 4 axes principaux.
Axe 1 : Gestion des flux de données
Cet axe vise à fluidifier toute la chaîne de données, de la collecte — notamment en expérimentation végétale — jusqu’au traitement et à la diffusion dans les SI stratégiques des départements BAP (OLGA, Thaliadb, GnpIS, OpenSilex, etc.) et ECODIV (Phénobois). Il s’appuie sur l’IoT pour la collecte automatique à distance et sur des applications mobiles adaptées au terrain (Adonis, FieldBook). En standardisant les flux (MIAPPE, BrAPI), l’objectif est de renforcer l’interopérabilité des SI et d’en étendre l’usage à un nombre croissant d’unités BAP.
Axe 2 : Graphe de connaissances
Les graphes de connaissances intègrent des savoirs fortement connectés, du génome au phénotype. Ils soutiennent les thématiques du département (enjeu structurant n°2 : biologie translationnelle, pangénomique, ressources génétiques) et servent de socle à des services à forte valeur ajoutée pour les scientifiques. Dans la continuité du groupe de travail 2 du CATI GREP, cet axe s’appuie sur un collectif d’ingénieurs expérimentés et contribue à des projets d’envergure, dont AgroDiv et BReIF du PEPR Agroécologie et Numérique. Les travaux viseront à intégrer des connaissances biologiques et issues de la littérature, fortement connectées, dans des bases de données dédiées. Permettre leur visualisation et leur interrogation simplifiée par les scientifiques pour inférer des connaissances non explicite du graphe, et mieux exploiter la richesse des connexions ainsi intégrées.
Axe 3 : Pangénomique
L’accès à plusieurs génomes assemblés pour une espèce ouvre la voie à une exploration pangénomique. L’activité dans cet axe de travail consiste à tester les différents outils disponibles pour les approches pangénomique sur les différentes espèces modèles des agents du CATI. Selon la complexité et la taille des génomes analysés les problématiques ne sont pas les mêmes et bénéficier du retour d’expérience de collègues est souvent salutaire. Une grande partie des variants structuraux identifiés dans les graphes de pangénome est représentée par les éléments transposables (ET). panREPET est un outil non référence centré qui permet d’annoter les ET dans les pangénomes. Un des enjeux aujourd’hui est d’évaluer les performances de l’outil sur des génomes de grande taille et de comparer ces résultats à des approches graphe de pangénomes type minigraphCactus/PGGB.
Cet axe est complémentaire des développements qui peuvent être menés dans le réseau métier Get-A-Pan, le projet PEPR AgroDiv et le SaPI PanAnnot.
Axe 4 : Workflows d’analyse et visualisation en génétique quantitative et Genome wide association studies(GWAS)
La génétique quantitative et des populations souffre d’une forte hétérogénéité des pratiques et d’un manque d’ingénierie structurée. L’absence de formats standards complique l’usage des outils, notamment entre R et Python, et nuit à l’efficacité comme à la reproductibilité.
Une cartographie des outils et objectifs des membres du CATI et des communautés associées permettra d’identifier des besoins communs et de lancer des développements partagés pour harmoniser les pratiques avec des pipelines de génétique quantitative et de GWAS.
Des approches fondées sur l’intelligence artificielle sont envisagées, notamment le développement de méthodes de classification automatisée de la sévérité des symptômes phénotypiques, destinées à être intégrées dans des analyses de type GWAS et co-GWAS.
Des interfaces conviviales seront ensuite développées et déployées sur des plateformes institutionnelles, accompagnées d’un dispositif de soutien destiné à en faciliter l’usage et à mieux répondre aux besoins des unités.
Les communautés bénéficiaires
Les principales communautés servies sont les unités des départements BAP et EcoDiv, avec une forte implication en sélection végétale, caractérisation des ressources génétiques, exploitation de données omiques et évaluation variétale (ex. GEVES). Les outils et services produits bénéficient aussi aux partenaires d’INRAE dans de grands projets nationaux (PEPR) et européens, par la mise à disposition de services web (IPMorama, LIVESEEDING).
-
Axe 1 — bénéficiaires prioritaires : les CRB (dont un nombre croissant utilisent déjà OLGA) et les unités/plateformes générant des données de génotypage et de phénotypage.
-
Axes 2, 3 et 4 — bénéficiaires prioritaires : les scientifiques des départements BAP et EcoDiv.
Le CATI fédère des agents BAP E issus d’une douzaine d’unités, où les bioinformaticiens sont souvent isolés et très sollicités. La mutualisation des efforts et la rationalisation des développements permettent d’outiller le plus grand nombre, d’harmoniser les pratiques et d’améliorer la qualité de service à l’échelle du département.