Reconstruction de réseaux d’interactions microbiens

Principes, limites et applications aux aliments fermentés

September 13, 2023

Pourquoi utiliser des réseaux ?

Outil d’analyse exploratoire

  • Visualisation de données
  • Identification d’espèces systémiques et/ou clés de voûte (keystone species)
  • Identification de communautés

Quelques succès

Associer des taxa à un phénotype d’intérêt (Guidi et al. 2016)

  • Détection de modules
  • Associations module - phénotype

Construire une SynCom pour un phénotype (Poudel et al. 2023)

  • Taxas associés au phénotypes…
  • Et taxa associés aux précédents

Quelques succès

Prédire des changements de compositions grâce aux keystone species (Herren and McMahon 2018)

\(R^2\) entre abondance pondérée des espèces clés de voûte et changement de composition au sein de phytoplanctons lacustres

Comment les reconstruire ?

Grandes familles de méthodes

  • Modèles métabolomiques : Exposés d’A. Siegel et S. Labarthe sur les réseaux métaboliques

  • Modèles dynamiques : gLV (Lotka-Volterra généralisé) et CR (Consumer - Resources), nécessite des séries temporelles d’abondances

  • Modèles statistiques : réseaux de co-occurrence, de corrélations (partielles), nécessite des données d’abondances \(\mathbf{Y}\).

Adapté de la Fig. 1 de Picot et al. (2023)

Réseau de co-occurrence


La quasi-totalité des méthodes actuelles sont basées sur les modèles graphiques gaussiens

Interaction \(\simeq\) Co-occurrence \(\simeq\) Corrélation (partielle)

Réseau \(G\) \(\simeq\) Matrice de corrélation (\(\Sigma\)) ou de précision (\(\Omega = \Sigma^{-1}\))


Matrice \(\Sigma\) ou \(\Omega\)

Reconstruire le réseau revient à estimer un \(\mathbf{\Sigma}\) / \(\mathbf{\Omega}\) parcimonieux avec \(\mathbf{Y} \sim \mathcal{N}(\mathbf{XB}, \mathbf{\Sigma})\).

De nombreuses méthodes

Basées sur les mêmes principes:

  • Transformation des données d’abondances pour les rendre (pseudo)-gaussiennes
    • Via des fonctions numériques (\(\log\), \(\arcsin\), \(\text{clr}\), …)
    • Via plongement dans un espace latent gaussien (PLN, ZINB, …)

Aperçu non exhaustif

Méthode Modèle Approche Covar. \(\mathbf{X}\) Réference
SPIEC-EASI CLR Gaussien MB Non Kurtz et al. (2015)
gCoda CLR Gaussien glasso Non Fang et al. (2015)
SPRING Copule MB Non Yoon, Gaynanova, and Müller (2019)
MAGMA Copule + ZINB MB Oui Cougoul, Bailly, and Wit (2019)
PLNetwork Couche latente + PLN glasso Oui Chiquet, Mariadassou, and Robin (2021)
ZiLN Couche latente + ZILN MB Non Prost, Gazut, and Brüls (2021)
COZINE CLR Gaussien + Hurdle MB Oui Ha et al. (2020)
HARMONIES Copule - ZINB glasso Non Jiang et al. (2020)

Avec des résultats constrastés…

Mais dépendant des comparaisons…

  • Simulation semi-paramétriques
  • Absence de covariables
  • Abondances totales homogènes
  • \(n \in \{50, 100, 500, 1000\}\)
  • Simulation paramétriques
  • Présence de covariables
  • Abondances totales hétérogènes
  • \(n \in \{25, 50, 100\}\)

Et les aliments fermentés ?

Figure 1: Fromage AOP affinés français

Projet MetaPDOCheese

Objectif: Faire l’inventaire des flores microbiennes des 44 AOP fromagères affinées françaises

Plan expérimental

  • (Jusqu’à) 10 productions par AOP avec collecte de
  • 1 échantillon de lait
  • 3 échantillons de fromages (issus de ce lait)
    • prélèvement en croûte et en pâte
  • Séquençage 16S (fraction bactérienne) et ITS (fraction fongique) des échantillons

Données purement observationnelles

Limites et verrous


  • Traitement des données d’abondances
    • données fortement non-gaussiennes
    • transformations \(\log\), variables latentes, quantification absolue, etc
  • Traitement des zéros
    • jusqu’à 97% de valeurs nulles dans les abondances
    • modèles zéro-inflatés, pour données censorées
  • Gestion des facteurs environnementaux
    • inclusion comme régresseurs
    • stratification des données
  • Passage à l’échelle
    • approches quadratiques (MB) / cubique (glasso)
    • combinées à une surcouche bootstrap
  • Validation in silico / in culturo
    • résultats incohérents entre comparatifs
    • pas de bon modèle génératif
    • conditions difficiles à reproduire
  • Non-robustesse des résultats
    • méthodes consensus
    • Champion et al. (2023) et Peschel et al. (2021)

Facteurs environnementaux

Interactions indirectes

induites par une corrélation entre environnement et abondances

Adapté de la Fig. 2 de Faust (2021)

Interactions contexte-spécifiques

modulées par la composition du milieu et la disponibilité en nutriments

Adapté de la figure 3 de Weiss et al. (2023)

Modèles dynamiques: la solution ?

C’est compliqué…

Les modèles types gLV fonctionnent a priori bien

Proportion de reconstructions correctes, adapté de la Fig. 2 de Picot et al. (2023)

mais pour des chemostats, pas des batchs (Momeni, Xie, and Shou 2017)

Fig. 4 de Picot et al. (2023)

À retenir

  • Réseaux utiles pour décrire les communautés.

  • Ont permis de

    • relier des microbes à des fonctions

    • suggérer des consortia.

  • Possibilité de décrire finement les interactions à l’aide de

    • des séries temporelles,

    • des perturbations

    • des communautés synthétiques

    • des modèles métaboliques

En pratique,

  • Données observationnelles sont

    • les plus fréquentes (de loin)

    • les pires

  • Méthodes de reconstruction

    • ont une philosophie commune

    • imparfaites et incohérentes

  • Modèles dynamiques intéressants

  • mais pas la panacée pour les aliments fermentés


