CDS@DATAIA Challenges

Recherche

29.09.22

CDS@DATAIA Challenges

Actualités sur le même thème

Depuis plusieurs années et notamment depuis juillet 2021 au sein de l’institut DATAIA, le Paris-Saclay Center for Data Science organise des challenges en science des données, à destination des étudiants et des chercheurs du plateau de Saclay. Retour sur les dernières collaborations.

Impulsés par le Paris-Saclay Center for Data Science (CDS) et co-organisés avec l'Institut DATAIA, ces différents challenges de machine learning sont conçus à destination des étudiants de l'Université Paris-Saclay, pour faciliter et aider la recherche. L’objectif principal de ces “défis de données” est de répondre à l'aide du machine learning à des problématiques de recherche, en mêlant les scientifiques et les étudiants.

Cette démarche se veut pédagogique et s'appuie sur les spécificités du logiciel RAMP, plateforme dédiée au prototypage collaboratif de modèles (utilisant le langage Python), qui permet la soumission du code et non pas seulement du vecteur de prédiction, comme cela se fait habituellement dans les challenges de machine learning (Kaggle par exemple). Les organisateurs du challenge peuvent donc récupérer tout un ensemble de prototypes de modèles classés avec le score d’une métrique choisie.

Qu'est-ce que RAMP ?

Le logiciel RAMP (Rapid Analytics and Model Prototyping) a été initialement développé par le Centre des Sciences des Données (CDS) de Paris-Saclay pour connecter la science des données aux autres domaines scientifiques. L'objectif initial était de permettre le prototypage collaboratif de flux de machine learning, afin de résoudre le segment d'analyse de données des problèmes scientifiques. Cet outil est basé sur la volonté que les participants soumettent leur propre code et non pas uniquement les résultats. Chaque solution est évaluée sur un serveur dédié ou dans le cloud, sur des données privées, et le score apparaît dans un tableau de classement. Après le challenge, les codes soumis sont rendus publics et sont mis à disposition des scientifiques. L'équipe du CDS a également lancé le site RAMP.studio pour mettre RAMP en action et accueillir ses propres défis. Une vingtaine de défis de machine learning, dans des domaines scientifiques allant de la médecine, la biologie, les neurosciences à l'astrophysique, ont été déployés. Ces challenges aboutissent généralement à un modèle présentant une amélioration significative de la prédiction par rapport à la base de référence. Désormais, le CDS est intégré au sein du périmètre de l’Institut DATAIA.

Selon les acteurs concernés, les challenges peuvent prendre différentes formes (d'une durée moyenne de 2 mois) : datacamp, event, open challenge…

Challenge 1 | Prediction of the isotopic inventory in a nuclear reactor core

Ce défi, organisé en août 2021, a été réalisé avec le soutien de l'Institut DATAIA, en collaboration avec l'Institut de Radioprotection et de Sûreté Nucléaire (IRSN).
Ce challenge a réuni 98 participants et a abouti à 976 soumissions.

Benjamin Dechenaux, Jean-Baptiste Clavel, Cécilia Damon (IRSN), François Caud, Alexandre Gramfort (DATAIA, Univ. Paris-Saclay)

Introduction

La matière contenue dans un réacteur nucléaire subit une irradiation qui provoque des cascades successives de réactions nucléaires, modifiant sa composition atomique. La connaissance de cette composition évoluant dans le temps est un paramètre important utilisé pour modéliser le comportement d'un réacteur nucléaire. Mais c'est aussi un élément crucial pour les études de sûreté liées à son fonctionnement et un élément clé pour l'atténuation d'un accident grave. Connaître à un instant donné la composition d'un réacteur permet d'évaluer rapidement quels isotopes radioactifs peuvent être libérés dans l'environnement.

La modélisation de l'évolution de la composition atomique des matériaux irradiés au fil du temps est généralement réalisée à l'aide de simulations Monte Carlo du système étudié, qui sont coûteuses en temps. Bien que précis, ce schéma de calcul peut s'avérer inadapté dans des situations de crise (c'est-à-dire accidentelles), où des schémas de calcul plus rapides doivent être développés.

Ce projet vise à construire un modèle par apprentissage automatique capable de prédire l'évolution de l'inventaire nucléaire d'un réacteur typique de la flotte française.

En savoir plus

Challenge 2 | Detection and classification of ovarian follicles

Ce défi a été réalisé avec le soutien de l'Institut DATAIA, en collaboration avec INRIA, CNRS, INSERM et INRAE.
Ce challenge a réuni 82 participants et a abouti à 409 soumissions.

Frédérique Clément (INRIA), Raphäel Corre (CNRS), Céline Guigon (INSERM), François Caud, Benjamin Habert, Alexandre Gramfort (DATAIA, Univ. Paris-Saclay)

Introduction

Le défi consiste à détecter et à classer automatiquement les follicules ovariens sur des coupes histologiques d'ovaires de mammifères.

L'ovaire est un exemple unique d'organe endocrine dynamique, en remodelage permanent à l'âge adulte. La fonction ovarienne est soutenue par des structures sphéroïdes, multicouches et multiphasiques, les follicules ovariens, qui abritent l'ovocyte (cellule germinale femelle) et sécrètent une variété d'hormones et de facteurs de croissance. L'ovaire est doté d'un pool de follicules établi tôt dans la vie, qui s'épuise progressivement par le développement ou la mort des follicules. La compréhension de la dynamique des populations de follicules ovariens est essentielle pour caractériser le statut physiologique reproducteur des femelles, de la naissance (voire de la vie prénatale) à la sénescence reproductive.

L'estimation précise du nombre de follicules ovariens à différents stades de développement est d'une importance capitale dans le domaine de la biologie de la reproduction, pour la recherche fondamentale, les études pharmacologiques et toxicologiques, ainsi que pour la gestion clinique de la fertilité. Les défis sociétaux associés concernent le vieillissement ovarien physiologique (diminution de la fertilité avec l'âge, ménopause), le vieillissement pathologique (insuffisance ovarienne prématurée) et le vieillissement induit par des composants toxiques (perturbateurs endocriniens, traitements anticancéreux).

In vivo, seuls les stades terminaux des follicules, donc la partie émergée de l'iceberg, peuvent être suivis par échographie. Pour détecter tous les follicules, des approches invasives, reposant sur l'histologie, sont nécessaires. Les ovaires sont fixés, coupés en série et teintés avec des colorants appropriés, puis analysés manuellement par microscopie optique. Un tel comptage est une procédure complexe, fastidieuse, dépendante de l'opérateur et, surtout, très chronophage. Pour gagner du temps, seules quelques tranches prélevées sur un ovaire entier sont examinées, ce qui ajoute au bruit expérimental et dégrade encore la fiabilité des mesures.

Les expérimentateurs attendent beaucoup de l'amélioration de la procédure de comptage classique, et les approches du comptage folliculaire basées sur l'apprentissage profond pourraient apporter une avancée considérable dans le domaine de la biologie de la reproduction.

Nous distinguerons ici 4 catégories de follicules, des plus petits aux plus grands :

Primordial ;
Primaire ;
Secondaire ;
Tertiaire.

L'une des difficultés réside dans le fait qu'il existe une grande disparité de taille entre tous les follicules. Une autre difficulté est que la plupart des modèles de classification pré-entraînés, le sont sur des objets de la vie quotidienne et non sur des tissus biologiques.

En savoir plus

Challenge 3 | Predict age from brain grey matter (regression)

Ce défi a été réalisé avec le soutien de l'Institut DATAIA, en collaboration avec le CEA NeuroSpin.
Ce challenge a réuni 31 participants et a abouti à 334 soumissions.

Edouard Duchesnay, Antoine Grigis (Université Paris-Saclay, CEA, NeuroSpin), François Caud, Alexandre Gramfort (Université Paris-Saclay, Institut DATAIA)

Introduction

Ce défi consiste à prédire l'âge d'un individu à partir de la quantité de matière grise du cerveau (régression). Le vieillissement est associé à une atrophie de la matière grise (MG). Chaque année, un adulte perd 0,1% de MG. Nous allons essayer d'apprendre un prédicteur de l'âge chronologique (âge réel) en utilisant des mesures de MG sur le cerveau sur une population de participants témoins sains.

Un tel prédicteur fournit l'âge cérébral attendu d'un sujet. Une déviation de cet âge cérébral attendu indique une accélération ou un ralentissement du processus de vieillissement qui peut être associé à un processus neurobiologique pathologique ou à un facteur de protection du vieillissement.

En savoir plus

Challenge 4 | Brain age regression with deep learning

Ce défi a été réalisé avec le soutien de l'Institut DATAIA, en collaboration avec le CEA NeuroSpin.

Edouard Duchesnay, Antoine Grigis (Université Paris-Saclay, CEA, NeuroSpin), François Caud, Alexandre Gramfort (Université Paris-Saclay, Institut DATAIA)

Introduction

Le challenge brainage_deep est une extension du précédent challenge (brain age), permettant la soumission de réseaux de neurones profonds.

En savoir plus

Challenge 5 | ATLAS Stroke Lesion Segmentation

Ce défi a été réalisé avec le soutien de l'Institut DATAIA, en collaboration avec l'University of Southern California (USC).

Alexandre Hutton, Sook-Lei Liew (Neural Plasticity & Neurorehabilitation Lab, Univ. of Southern California), Maria Teleńczuk, Swetha Shanker, Guillaume Lemaitre, François Caud, Alexandre Gramfort (Université Paris-Saclay, Institut DATAIA)

Introduction

L'accident vasculaire cérébral (AVC) est la principale cause de handicap chez l'adulte dans le monde, et jusqu'à deux tiers des personnes touchées souffrent d'un handicap à long terme. Des études de neuro-imagerie à grande échelle se sont révélées prometteuses pour l'identification de biomarqueurs robustes (par exemple, des mesures de la structure cérébrale) de la récupération de l'AVC à long terme après la rééducation. Cependant, l'analyse de grands ensembles de données liées à la réadaptation est problématique en raison des obstacles à la segmentation précise des lésions cérébrales. Les lésions tracées manuellement constituent actuellement l'étalon-or de la segmentation des lésions sur les IRM pondérées en T1, mais elles nécessitent une expertise anatomique et demandent beaucoup de travail. De plus, la segmentation manuelle est subjective, les évaluateurs produisant des résultats différents.

Bien que des algorithmes aient été développés pour automatiser ce processus, les masques de lésions qui en résultent manquent souvent de la précision nécessaire pour en faire des informations fiables. Les algorithmes plus récents qui utilisent des techniques d'apprentissage automatique et d'apprentissage profond sont des voies prometteuses, mais ils nécessitent des ensembles de données importants et diversifiés pour l'entraînement et le test et le développement de modèles généralisables. Dans le cadre de ce défi, l'entraînement peut être effectué sur notre jeu de données public ATLAS 2.0, et les tests sont réalisés avec un jeu de données multi-sites provenant des mêmes sites qu'ATLAS 2.0.

En savoir plus

Challenge 6 | Brain age prediction and debiasing with site-effect removal in MRI through representation learning

Ce défi a été réalisé avec le soutien de l'Institut DATAIA, en collaboration avec le CEA NeuroSpin.

Antoine Grigis, Benoît Dufumier, Edouard Duchesnay (Université Paris-Saclay, CEA, NeuroSpin), François Caud, Alexandre Gramfort (Université Paris-Saclay, DATAIA)

Introduction

La modélisation du développement et de la maturation du cerveau dans la population saine à l'aide du Machine Learning (ML) à partir d'images IRM du cerveau est un défi fondamental. Les processus biologiques impliqués sont complexes et très hétérogènes entre les individus, comprenant à la fois une variabilité environnementale et génétique entre les sujets. Par conséquent, il est nécessaire de disposer de grands ensembles de données IRM comprenant des sujets d'âges très divers. Cependant, ces ensembles de données sont souvent multi-sites (c'est-à-dire que les images sont acquises dans différents hôpitaux ou centres d'acquisition à travers le monde) et cela induit un fort biais dans les données IRM actuelles, en raison des différences entre les scanners (champ magnétique, constructeur, gradients, etc.).

Par conséquent, ce défi vise à construire i) des modèles ML robustes qui peuvent prédire avec précision l'âge chronologique à partir de l'IRM du cerveau tout en ii) éliminant les informations non biologiques des images IRM. Nous avons conçu ce défi dans le contexte de l'apprentissage par représentation et il encourage le développement de nouveaux algorithmes de ML et de Deep Learning.

Plus précisément, le vieillissement est associé à l'atrophie de la matière grise (MG). Chaque année, un adulte perd 0,1% de sa MG. Nous allons essayer d'apprendre un prédicteur de l'âge chronologique (âge réel) en utilisant des caractéristiques dérivées de la MG sur une population de participants témoins en bonne santé.

Le jeu de données est composé d'images provenant de divers sites, de différents scanners IRM et acquises dans des conditions variées. Afin de prédire correctement l'âge des participants, il faut tenir compte de l'effet site/scanner.

En savoir plus

Challenge 7 | Bovine embryos survival prediction

Ce défi a été réalisé avec le soutien de l'Institut DATAIA, en collaboration avec l'Institut National de Recherche pour l'Agriculture, l'Alimentation et l'Environnement (INRAE) et l'École Nationale Vétérinaire d'Alfort (ENVA).

Julien Chiquet (MIA Paris-Saclay, Inrae), Pierre Gloaguen (MIA Paris-Saclay, AgroParisTech), Nicolas Jouvin (MIA Paris-Saclay), Patrick Bouthemy (SERPICO, Inria), Alain Truibil (MaiAGE, Inrae), Alline Reis (PASP, ENVA), François Caud, Alexandre Gramfort (DATAIA, Univ. Paris-Saclay)

Introduction

Ce défi consiste à prédire l'état de développement des embryons bovins vus à 8 jours après la fécondation (daf). Il existe 8 classes différentes (notées de "A" à "H" dans ce défi) correspondant à des états biologiques allant de vivant ("A") à mort ("H").

Les étiquettes connues sont l'état de développement des embryons à 8 daf, cependant, il est très intéressant de pouvoir prédire cet état futur le plus tôt possible. Le but de ce défi est de prédire ces états entre 1 et 4 daf (au plus tard) et d'être le plus précis possible par rapport aux étiquettes indiquées. Pour cela, vous avez accès à 277 vidéos issues de notre propre base de données (INRAE), chacune composée de 300 instantanés pris toutes les quinze minutes.

En savoir plus

CDS@DATAIA

Actualités sur le même thème