Stages M2 financés par l'Institut DATAIA en 2024
L’Institut DATAIA soutient la recherche en science des données - incluant l’informatique, les mathématiques et les sciences humaines et sociales - au travers d'un appel annuel dédié aux stages de Master 2 (ou équivalents).
Clôturé le 10 novembre, l'appel 2023 a permis de retenir 19 sujets de stage pour 109 mois financés. Les établissements partenaires de l'Institut DATAIA bénéficieront des fonds pour accueillir un stagiaire, pendant 4 à 6 mois.
Stéphane Herbin & Julien Moras (ONERA)
Les modèles de réseaux de neurones multi-modaux ont récemment montré des performances impressionnantes dans une variété de tâches associant vision par ordinateur et traitement du langage naturel. Leur capacité d’adaptation à de nouvelles tâches ou à des domaines d’application spécifiques reste cependant un défi. Ce stage vise à explorer des méthodes d’apprentissage continu, c’est-à-dire par mise à jour incrémentale du modèle, pour réaliser cette adaptation. L’intérêt d’une telle approche est de ne pas avoir à stocker en mémoire la totalité des données lors de chaque phase d’adaptation; la difficulté est de de gérer un flux de données et des annotations ou des récompenses asynchrones en limitant ce que l’on appelle l’oubli catastrophique, c’est-à-dire la perte des compétences acquises dans les phases d’apprentissage antérieures. Plusieurs stratégies d’apprentissage seront envisagées : réglage fin en apprenant un « prompt » conditionnel, construction d'une nouvelle représentation spécifique au domaine mais aidée par un modèle pré-entrainé (distillation) ou régularisation exploitant des données non annotées (semi-supervision).
Nadia Boukhekifa (INRAE) & Anastasia Bezerianos (Polytech, Université Paris-Saclay)
Dans l'apprentissage automatique interactif, les humains et les algorithmes d'apprentissage automatique collaborent pour réaliser des tâches à l'aide d'interfaces visuelles interactives. Dans l'apprentissage automatique interactif traditionnel, les modèles sont souvent développés avec un seul utilisateur à l'esprit. Cependant, les applications du monde réel nécessitent souvent la collaboration de différents types et niveaux d'expertise pour aider à développer et à évaluer de manière fiable les résultats des modèles d'apprentissage automatique. L'objectif de ce stage est de développer un cadre d'apprentissage automatique interactif collaboratif (CoCo-IML), et un système prototype qui le met en œuvre, afin de : (i) d'une part, soutenir le dialogue entre différents types d'experts du domaine et de modélisateurs, et (ii) d'autre part, soutenir le dialogue entre les experts et l'algorithme d'apprentissage automatique. Le travail proposé sera démontré à travers un cas d'utilisation réel dans les domaines de l'agronomie et de la technologie alimentaire, en suivant une méthodologie de conception participative.
Anna Rozanova-Pierrat (CentraleSupélec)
Bien que des travaux préliminaires aient établi des liens entre l'apprentissage supervisé, les problèmes aux limites (des équations aux dérivées partielles (EDP)) et la minimisation de l'énergie, les possibilités d'améliorer une variété d'algorithmes d'apprentissage supervisé sont très importantes. De même pour les méthodes numériques classiques des EDPs, comme la méthode des éléments finis, s'il s'agit d'approximer des solutions sur des domaines non-Lipschitziens.
L'idée générale est donc développer des méthodes numériques en révisant les méthodes classiques comme la méthode de Galerkin ou éléments finis pour les adapter au plus à la résolution numérique des problèmes des EDPs sur des domaines aux bords fractals.
Jean-François Lecomte, Van Thao Nguyen (IFP Énergies Nouvelles)
Dominique Fourer, Désiré Sidibé (UEVE)
Digital Rock Physics (DRP) est une thématique essentielle pour caractériser les propriétés des roches dans de nombreux domaines (hydrogéologie, stockage CO2).La tomographie à haute énergie a révolutionné le secteur en permettant une imagerie 3D détaillée. Ces images permettent une compréhension plus approfondie de ces propriétés. Cependant cette technique d’imagerie expérimentale requiert des équipements très spécifiques (synchrotron,..). L’utilisation de cette méthode reste donc limitée car elle se révèlent coûteuse et complexe. Le nombre d’images produites est donc limité. Generative Adversarial Networks (GAN) (Radford, 2015) peuvent représenter une alternative aux techniques expérimentales pour produire des images de roches.. Dans le contexte du DRP, les GAN peuvent être entrainés pour produire des images de roches 3D réalistes, imitant fidèlement les caractéristiques des échantillons de roches réels obtenus par imagerie tomographique (Zhou, 2023).
Marco Pasi & Anne Lopes (ENS Paris-Saclay)
Yue Ma (Université Paris-Saclay)
Massinissa Hamidi & Fariza Tahi (UEVE)
La détermination de la structure 3D des chaînes d'acide ribonucléique (ARN) est essentielle pour comprendre leur fonction et leur rôle dans les différentes étapes de la vie des organismes vivants et des virus. En raison du coût élevé des méthodes expérimentales (RMN, cristallographie, etc.), des méthodes informatiques pourraient s'avérer très utiles. Bien que des méthodes aient été proposées dans la littérature depuis plusieurs années, la tâche reste ouverte. Pour les protéines, ce problème a connu des avancées considérables ces dernières années : AlphaFold2 de DeepMind [1] a fait un pas de géant en résolvant le problème de la prédiction de la structure 3D pour de nombreux types de structures de protéines à chaîne unique grâce à l'apprentissage profond. Malheureusement, l'ARN reste un défi [2] : contrairement aux protéines, (i) les données sur les structures 3D connues de l'ARN ne sont pas disponibles en grandes quantités ; (ii) les ARN ne sont pas stables et peuvent donc avoir différentes conformations 3D ; (iii) les séquences d'ARN peuvent varier de quelques nucléotides à plusieurs dizaines de milliers de nucléotides.
Aymeric Chazottes (UVSQ)
La pluie est au cœur de nombreux domaines scientifiques (météorologie, hydrologie, télécommunication, …) mais aussi le sujet de nombreuses préoccupations (sécheresses, crues éclaires, …). La pluie est un phénomène non stationnaire sujet aux extrêmes. Selon le contexte elle est considérée à des échelles de temps et d’espace différentes via des procédés de mesures variés. Il n’est pas toujours simple d’établir la correspondance entre les visions macro-physique (intensité de pluie) et microphysique (distribution de taille des gouttes).
Modéliser les gouttes de pluie permet de considérer un processus discret, à l’échelle la plus fine. On considère ainsi un processus ponctuel temporel neuronal (NTPP pour l’anglais Neural Temporal Point Process) avec marque. La marque est ici la taille et/ou la vitesse de la goutte. L’objectif est de s’affranchir des nombreux modèles paramétriques de la pluie pour apprendre une information directement issue de la pluie et de ses mesures.
Morgan Menz & Thibault Faney (IFPEN)
La dynamique moléculaire ab initio DFT (Density Functional Theory) est une méthode de simulation utilisée pour étudier les propriétés et les réactions moléculaires à l'échelle atomique. Cette méthode a l’avantage d’être précise mais nécessite des temps de calcul prohibitifs, ce qui la limite des systèmes et des échelles de temps de petites tailles. L'utilisation de modèles de réseaux de neurones (NN) offre une alternative prometteuse pour accélérer les calculs. Cependant, des articles récents montrent les limitations de l’utilisation des modèles de NN lorsqu’ils sont utilisés pour remplacer l’ensemble des calculs DFT d’une simulation de dynamique moléculaire. Ce stage propose d'explorer des stratégies alternatives permettant de tirer profit des modèles de NN pour accélérer les simulations sans sacrifier la précision des résultats en prenant en compte la physique.
Fragkiskos Malliaros & Véronique Letort–Le Chevalier (CentraleSupélec)
Claire Nédellec, Nicolas Sauvion (INRAE)
Vincent Guigue (AgroParisTech)
Le projet porte sur l’extraction automatique de relations biologiques à partir de documents. Il ciblera en priorité trois espèces particulières de psylles (insectes piqueurs suceurs) vecteurs de bactéries responsables de maladies des arbres fruitiers. Les événements représentant les interactions biologiques entre microbe, insecte, plante et leurs lieux et dates d’observation sont dénotés dans les textes scientifiques par des formulations complexes variables qui portent fréquemment sur plusieurs phrases. L’enjeu sera d’extraire ces événements (relations n-aires) par des méthodes d’apprentissage profond (deep learning, language models) avec un nombre limité d’exemples produits manuellement et à l’aide de bases de connaissance externes.
Céline Hudelot & Simon Meunier (CentraleSupélec)
Avec plusieurs millions de systèmes de pompage d'eau utilisés pour l'irrigation des cultures, les régions d’Haryana, de l’Uttar Pradesh, de Bihar et du West Bengal constituent l’une des zones les plus intensivement cultivées au monde, fournissant de la nourriture à plusieurs centaines de millions de personnes. Dans le cadre de la transition énergétique, il y a un fort désir du gouvernement indien de remplacer les systèmes de pompage existants (en grande partie diesel) par des systèmes de pompage photovoltaïques. Afin d’aider au déploiement soutenable (notamment vis-à-vis de la pérennité des ressources en eau) de ces systèmes de pompage photovoltaïques, un élément clé est de pouvoir modéliser leur performance à large-échelle. Notre équipe de recherche a développé un modèle physique permettant d’obtenir de tels résultats. Cependant, ce modèle étant très chronophage, il empêche la réalisation d’un grand nombre de scénarios (en faisant par exemple varier le dimensionnement des systèmes). L’objectif de ce projet sera donc de développer un modèle de substitution (surrogate model) au modèle physique. Les défis liés au développement du modèle de substitution seront (i) de fournir un modèle à la fois performant en terme de temps de calcul, précis et interprétable et (ii) le fait que le modèle physique à substituer est complexe et interdisciplinaire. Plusieurs options seront envisagées pour le modèle de substitution tels que les arbres de décision et les forêts aléatoires, les réseaux de neurones et les modèles linéaires généralisés.
Thibault Faney & Véronique Gervais (IFPEN)
L'établissement de sites de stockage souterrain de CO2 implique des études préliminaires cruciales à l'aide de modèles numériques de la subsurface. Ces modèles, représentés par une grille 3D avec des propriétés pétrophysiques, simulent la dynamique et les interactions des fluides pour fournir une vision spatio-temporelle de l'évolution du réservoir. Ces informations sont essentielles pour estimer la capacité de stockage, effectuer des analyses de risque et tester des scénarios d'injection. Cependant, les caractéristiques du sous-sol mal connues, en particulier les propriétés pétrophysiques influentes, posent des problèmes de calcul et nécessitent des simulations d'écoulement coûteuses. Le stage vise à résoudre ce problème en explorant les modèles d'apprentissage des opérateurs neuronaux pour la méta-modélisation des EDP, en se concentrant sur les données d'entrée à haute dimension telles que les propriétés pétrophysiques. L'approche comprend la mise en œuvre de garanties de conservation physique et sera testée sur un scénario synthétique d'injection de CO2 dans un aquifère salin, en tenant compte à la fois du transport du CO2 et des interactions avec le milieu carbonaté.
Mathilde Mougeot, Nicolas Vayatis (ENS Paris-Saclay)
Miguel Munoz Zuniga, Delphine Sinoquet (IFPEN)
Charles Truong & Laurent Oudre (ENS Paris-Saclay)
Le monitoring de systèmes complexes (systèmes industriels, sujets humains et animaux, etc.) produit des séries temporelles multivariées, longues et non-stationaires, qu’il est difficile d’étudier dans leur forme brute. Dans ce stage, nous cherchons à approcher ces signaux par des modèles de type spline, souvent utilisés en traitement du signal et statistiques et connus pour être très compacts. Néanmoins les méthodes d’approximation actuelles sont heuristiques et sous-optimales. L’objectif du stage est d’étudier une méthode récente pour faire de l’approximation par spline : le trend filtering. Le•la stagiaire devra explorer les procédures pour étendre cette méthode à des signaux multivariés, et proposer une approche, idéalement avec des garanties théoriques, pour améliorer la parcimonie des représentations obtenues. Les contributions du stage seront intégrées à la librairie Python “ruptures” (qui recense, en à peine 3 ans, plus de 10M de téléchargements).
Laurent Barthes & Aymeric Chazottes (UVSQ)
La pluie est un phénomène complexe. De nombreux modèles de Deep Learning ont été utilisés pour apprendre des images de pluie. L’objectif de ce travail est de trouver une caractérisation de ses images de pluie permettant de faire le lien entre les différentes images de la pluie, qu’elles soient obtenues du sol ou de l’espace. La mesure des précipitations au sol étant plus compliquée depuis l’espace, notre produit pluie de référence sera basé sur les mesures du réseau ARAMIS fourni par Météo France. En se basant sur des Auto-encodeurs Variationels (ici un Topographic VAE), il est possible d’obtenir un espace latent structuré et équivariant pour caractériser les images de pluie avec leur dynamique. Cet espace latent permettra aussi de restituer l’information mesurable depuis l’espace en tirant partie de l’information temporelle issue des mesures acquises au sol.
Baptiste Abeloos & Stéphane Herbin (ONERA)
Avec la généralisation de l’utilisation de l’intelligence artificielle, le développement de modèles transparents et interprétables est devenu un enjeu de plus en plus crucial. Les réseaux de neurones utilisés en vision par ordinateur n'offrent pas cette transparence, ce qui limite la confiance dans les modèles, et freine les processus de certification pour les applications industrielles.
Julien Bohbot, Jean-Marc Gratien (IFPEN)
Sergio Chibbaro, Lionel Mathelin (Université Paris-Saclay)
Le projet NN4TURBULENCE : Développement d’un modèle neuronal pour la modélisation sous-maille de la turbulence en mécanique des fluides compressibles, a pour objectif de développer un modèle neuronal permettant de reproduire la modélisation sous-maille en simulation des grandes échelles de la turbulence. Ce modèle permettra alors des simulation à grande échelle à la fois performante et précise dans la modélisation de la turbulence qui jusque là nécessitait des simulations coûteuses sur des petites échelles.
Elodie Marchadier (INRAE)
Nicoleta Preda (UVSQ)
Fatiha Saïs (Université Paris-Saclay)