Catégorie
Le Séminaire Palaisien

« Le Séminaire Palaisien » | Marylou Gabrié & Gaël Varoquaux

Bandeau image
Séminaire Le Palaisien
Date de tri
Lieu de l'événement
Inria Saclay, Salle Gilles Kahn

Partager

twlkml
Chapo
Le séminaire Palaisien réunit, chaque premier mardi du mois, la vaste communauté de recherche de Saclay autour de la statistique et de l'apprentissage machine.
Contenu
Corps de texte

Chaque session du séminaire est divisée en deux présentations scientifiques de 40 minutes chacune : 30 minutes d’exposé et 10 minutes de questions.

Marylou Gabrié et Gaël Varoquaux animeront la session de mars 2023.


Inscriptions gratuites mais obligatoires, dans la limite des places disponibles. Un panier sandwich est offert.

En savoir plus
Ancre
12h15-12h55 : Marylou Gabrié "Opportunities and Challenges in Enhancing Sampling with Learning"
Corps de texte

Résumé : les modèles génératifs profonds paramétrent des familles très flexibles de distributions capables de s'adapter à des ensembles de données complexes d'images ou de textes. Ces modèles fournissent des échantillons indépendants de hautes distributions complexes à des coûts négligeables. D'un autre côté, l'échantillonnage exact d'une distribution cible, telle qu'un postérieur bayésien, est généralement difficile : soit à cause de la dimensionnalité, de la multi-modalité, d'un mauvais conditionnement ou d'une combinaison de ces facteurs. Dans cet exposé, je passerai en revue les travaux récents qui tentent d'améliorer les algorithmes traditionnels d'inférence et d'échantillonnage par l'apprentissage. Je présenterai en particulier flowMC, un MCMC adaptatif avec des flux de normalisation, ainsi que les premières applications et les défis restants.

Ancre
13h-13h45 : Gaël Varoquaux "Embeddings to learn on messy relational data"
Corps de texte

Résumé : l'apprentissage statistique s'appuie sur les régularités des données, en exploitant les similarités entre les observations ou la fluidité du processus sous-jacent. Mais ces régularités, similarités ou régularité sont difficiles à capturer dans les données relationnelles. Les observations sont accompagnées d'attributs de nature différente : âge, taille, adresse. Les observations elles-mêmes peuvent être de nature différente, reflétant une granularité différente des informations. Par exemple, l'étude du marché du logement peut nécessiter de rassembler des informations sur les ventes, les propriétés, les acheteurs et les diverses divisions administratives des villes et des États.

Face à des données relationnelles aussi complexes, la pratique courante consiste à les transformer manuellement en un espace vectoriel, avec beaucoup de travail manuel pour rendre les données aussi régulières que possible : Les jointures et agrégations SQL entre les tables, la normalisation des entités (correction des fautes de frappe), l'imputation des valeurs manquantes. Je présenterai les progrès réalisés pour repenser le processus de science des données afin d'éviter ces opérations manuelles. L'utilisation d'apprenants flexibles plutôt que de modèles paramétriques supprime la nécessité d'une imputation fantaisiste [1]. L'apprentissage automatique au niveau des caractères supprime la nécessité de normaliser les entités, bien que la question analytique doive être reformulée avec un modèle non paramétrique [2,3]. Enfin, l'information d'une base de données complète, avec des objets de nature différente et des attributs variables, peut être exprimée dans un espace vectoriel qui capture cette information en exprimant le modèle relationnel comme un graphe et en adaptant les techniques d'intégration de graphe de connaissances [4]. En conséquence, nous fournissons des vecteurs résumant l'ensemble des informations numériques et relationnelles de wikipedia pour des millions d'entités : villes, personnes, compagnies, livres : https://soda-inria.github.io/ken_embeddings/.

[1] Marine Le Morvan, Julie Josse, Erwan Scornet, & Gaël Varoquaux, (2021). What’s a good imputation to predict with missing values?. Advances in Neural Information Processing Systems, 34, 11530-11540.
[2] Patricio Cerda, and Gaël Varoquaux. Encoding high-cardinality string categorical variables. IEEE Transactions on Knowledge and Data Engineering (2020).
[3] Alexis Cvetkov-Iliev, Alexandre Allauzen, and Gaël Varoquaux. Analytics on Non-Normalized Data Sources: more Learning, rather than more Cleaning. IEEE Access 10 (2022): 42420-42431.
[4] Alexis Cvetkov-Iliev, Alexandre Allauzen, and Gaël Varoquaux. <a href="https://hal.science/hal-03848124">Relational data embeddings for feature enrichment with background information.</a> Machine Learning (2023): 1-34.