Le projet « YARN »

Les données cérébrales sont couramment collectées et analysées dans le cadre de travaux cliniques et de recherche est un exercice fastidieux qui nécessite de l'argent et du temps de la part d'experts qualifiés. L'analyse des images médicales, et donc l'imagerie cérébrale, est notoirement une tâche de savoir-faire qui la rend difficile mais possible à automatiser. Malgré des techniques d'enregistrement avancées permettant de faire correspondre les mesures du sujet, l'interprétation automatique de l'imagerie médicale a connu un tournant avec l'apprentissage profond, permettant la croissance d'entreprises dérivées avec des produits validés médicalement comme Avicenna.ai ou Therapixel. Pour l'électroencéphalographie (EEG), qui est par exemple cliniquement pertinente pour surveiller les patients dans le coma ou l'anesthésie, mais aussi pour la médecine du sommeil, mais aussi pour la médecine du sommeil, ce tournant est encore attendu malgré une communauté de recherche très active.

"Les données cliniques telles que les signaux physiologiques recueillis sur le cerveau sont intrinsèquement non traitées, bruyantes et désordonnées par rapport aux données de laboratoire. Le projet YARN s'attaquera à ce problème grâce à des statistiques robustes et à l'apprentissage par transfert, pour aboutir à un pipeline de traitement automatique des données intégré dans initiative d'open science."

L'analyse automatisée de l'EEG se heurte à des problèmes majeurs : mauvaise qualité du signal avec des données manquantes (électrodes déconnectées déconnectées, artefacts musculaires, etc.), la rareté des données en raison des temps d'acquisition limités, la d'acquisition limités, la variabilité intra et inter-sujet (à la fois pour le signal d'heure en heure chez un sujet et entre différents sujets). En dehors des contextes cliniques et dans des environnements de recherche très contrôlés, les techniques avancées de machine learning pour les données EEG sont déjà disponibles et permettent d'obtenir une classification de haute précision et une prédiction précise. Ces approches d'apprentissage automatique ont toutes été entraînées sur des ensembles de données propres, acquis dans des expériences de laboratoire contrôlées avec une sélection manuelle. Ces approches ne sont pas encore adaptées au traitement de données données cliniques brutes, soit en raison de limitations intrinsèques (incapacité à traiter des matrices d'entrée mal conditionnées), soit en raison d'un manque de généralisation (décalage de la distribution des jeux de données, valeurs aberrantes et bruit des étiquettes).

Problématiques

Pour que les outils de ML EEG sortent du laboratoire et soient capables de traiter efficacement les données cliniques, qui sont par nature désordonnées et rares, certains problèmes doivent encore être résolus :

  • Mauvaise qualité du signal : les signaux EEG d'intérêt sont mélangés à divers bruits. Ils sont mélangés à d'autres signaux cérébraux non pertinents, à des artefacts oculaires et musculaires, à du bruit instrumental, etc. De plus, l'étiquetage précis des données cliniques est assez compliqué et les données mal étiquetées sont fréquentes ;

  • Grande variabilité intra et inter-sujet : entre les sujets et entre les sessions, les signaux d'intérêt souffrent d'une grande variabilité ;

  • La reproductibilité et la disponibilité des logiciels : la littérature sur le traitement des signaux cérébraux est dense et l'évaluation des algorithmes de ML est souvent obscurcie par des benchmarks partiels et des ensembles de données triés sur le volet. Les sources de code, lorsqu'elles sont disponibles, sont enchevêtrées avec des aspects spécifiques à la tâche et aux données, ce qui limite leur réutilisation.

Objectifs

Sur la base des questions clés identifiées, les objectifs suivants sont considérés dans ce projet :

  1. Récupérer l'information d'intérêt : plusieurs contributions théoriques pour le SRS s'appuyant sur des estimateurs robustes et la géométrie pour caractériser le signal du bruit : étendre les modèles géométriques, exploiter les statistiques robustes et concevoir le SRS basé à la fois sur la robustesse et la géométrie ;

  2. Réduire la dépendance aux données : en utilisant peu ou pas de données cataloguées pour résoudre les problèmes de variabilité intra et inter-sujet : définir une nouvelle méthode d'enregistrement pour différents sujets et équipements, construire un espace de caractéristiques adéquat basé sur les similitudes entre les ondes cérébrales du sujet et les coordonnées barycentriques, utiliser l'apprentissage par transfert pour déduire un modèle pour les sujets avec des données étiquetées limitées ;

  3. Plate-forme scientifique ouverte : l'aspect applicatif consiste à développer des outils pour augmenter la reproductibilité et simplifier l'utilisation du traitement automatisé des données EEG brutes. Réduire autant que possible le besoin de paramétrer le modèle, automatiser les étapes de traitement et renforcer l'explicabilité du modèle et les visualisations explicatives.


ContactsSylvain Chevallier | Florent Bouchard | Frédéric Pascal | Alexandre Gramfort