Vers une prédiction de la composition des communautés planctoniques à partir des conditions environnementales ?
Le séquençage à haut débit permet aujourd’hui de séquencer la majorité des acides nucléiques (ADN, ARN) présents dans un échantillon d'eau de mer et d’en caractériser les communautés planctoniques, composées principalement d’organismes microscopiques. Ces jeux de données dites métagénomiques atteignent désormais l’ordre du téra[1], et offrent l’opportunité d’étudier l’impact des conditions environnementales sur la composition de ces communautés jouant un rôle clef dans la régulation du climat global. À partir de données initialement collectées dans le cadre de l’expédition Tara Oceans, une équipe de recherche[2] de Sorbonne Université, du CNRS et du Muséum national d’Histoire naturelle a combiné les approches de métagénomique à haut-débit à des techniques d'apprentissage automatique issues du machine learning. L’objectif : prédire la composition génomique du plancton à partir du contexte environnemental pour, à terme, pouvoir prédire les effets du changement climatique sur ces micro-organismes. Les résultats de leur étude* ont été publiés le 16 juillet 2021 dans la revue Nature Communications.
-
Emile Faure, docteur de Sorbonne Université, en post-doctorat à l’Université de Bretagne Occidentale
-
06 42 40 21 13
-
Sakina-Dorothée Ayata, maîtresse de conférences à Sorbonne Université
-
Lucie Bittner, maîtresse de conférences à Sorbonne Université
-
lucie.bittner@sorbonne-universite.fr
-
Marion Valzy, service presse Sorbonne Université
-
06 14 02 20 51
Un défi majeur du XXIème siècle est de mieux comprendre et prédire les effets du changement climatique et des actions de l’homme sur le fonctionnement des écosystèmes. Les micro-organismes marins jouent un rôle crucial dans la régulation du climat de la planète, les cycles biogéochimiques globaux et les réseaux trophiques océaniques. Ainsi le plancton des océans produit la moitié de l'oxygène que nous respirons et est à la base des réseaux trophiques alimentant les pêcheries. Une énorme quantité de données issues de séquençage à haut-débit ont été générées ces dix dernières années sur les communautés planctoniques naturelles, de l’ordre du téra, notamment grâce à la multiplication des expéditions océanographiques de grande échelle, permettant d’estimer, de plus en plus précisément, leur étonnante diversité. Face à cette quantité de données métagénomiques sans précédent, il apparaît nécessaire de développer des méthodologies innovantes fondées sur les données pour quantifier et prédire le rôle écologique de ces séquences d'ADN et d'ARN. L’enjeu est donc de parvenir à intégrer l’ensemble de ces séquences, dont une grande partie ont des rôles encore inconnus, dans un cadre statistique permettant de lier leur présence et leur abondance à des données environnementales hétérogènes, en limitant au maximum les choix a priori de fonctions ou d’organismes d'intérêt. Cela permettrait de mieux comprendre les mécanismes clefs impliquant les micro-organismes marins dans le fonctionnement global des océans, ainsi que leur dépendance aux conditions environnementales. On pourrait alors mieux mesurer l’impact potentiel du changement climatique sur les écosystèmes marins.
Méthodologie
Dans cette étude, les scientifiques proposent une approche basée sur l'analyse de réseaux de similarité de séquences, appliquée à 885 génomes de bactéries et d’archées marines précédemment obtenus par assemblage de métagénomes du projet Tara Oceans. Cette approche leur a permis une comparaison exhaustive de 757 457 séquences, ensuite rassemblées en 233 756 familles protéiques. Parmi ces familles, 15% étaient fonctionnellement non annotées, c'est-à-dire que leur rôle était totalement inconnu. Ils ont étudié la distribution de ces familles protéiques dans l'océan à l'échelle globale. Grâce à des méthodes d'apprentissage automatique (machine learning) utilisant comme prédicteurs un ensemble de paramètres physico-chimiques caractérisant les conditions environnementales des lieux d'échantillonnage, ils ont pu prédire l'abondance de 14 585 familles protéiques, dont 1 347 fonctionnellement non annotées. Ils ont identifié les provinces biogéographiques, c’est-à-dire les grandes régions de l’océan, comme étant les meilleurs prédicteurs de l'abondance des familles protéiques, et ont démontré que la Mer Méditerranée et l'Océan Austral constituaient des points particulièrement originaux en termes de composition en familles protéiques.
Applicable à tout jeu de données de métagénomique, et tout type d'écosystème (marin, eau douce, sol, microbiote, etc.), cette approche constitue une première étape vers des prédictions quantitatives de la composition fonctionnelle des communautés de micro-organismes à partir de paramètres environnementaux. Ces résultats pourraient ouvrir la voie à des prédictions "données-centrées" des effets potentiels du changement climatique sur les communautés de microorganismes, ainsi que sur leurs rôles au sein des écosystèmes.
*Ces travaux ont été en partie financés par un contrat doctoral du programme Interfaces Pour le Vivant (IPV) et par l’Institut des Sciences du Calcul et des Données (ISCD) de Sorbonne Université.
Référence :
Towards omics-based predictions of planktonic functional composition from environmental data, Faure Emile, Ayata Sakina-Dorothée, Bittner Lucie, Nature Communications, July 16th 2021.
doi :10.1038/s41467-021-24547-1