« Le Séminaire Palaisien » | Alejandro de la Concha & Azadeh Khalegh
Chaque session du séminaire est divisée en deux présentations scientifiques de 40 minutes chacune : 30 minutes d’exposé et 10 minutes de questions.
Alejandro de la Concha et Azadeh Khalegh animeront la session d'avril 2023.
Inscriptions gratuites mais obligatoires, dans la limite des places disponibles. Un panier sandwich est offert.
Résumé : En supposant que nous disposions d'observations i.i.d. de deux fonctions de densité de probabilité (pdfs) inconnues, p et p′, l'estimation du rapport de vraisemblance (LRE) est une approche élégante pour comparer les deux pdfs en s'appuyant simplement sur les données disponibles, et sans connaître explicitement les pdfs. Dans cet article, nous introduisons une extension de ce problème basée sur les graphes : supposons que chaque nœud v d'un graphe fixe ait accès à des observations provenant de deux pdfs inconnues spécifiques au nœud, pv et p′v ; l'objectif est alors de comparer les pv et p′v respectifs de chaque nœud en intégrant également les informations fournies par la structure du graphe. Ce cadre est intéressant lorsque le graphe transmet une sorte de "similarité" entre les tâches d'estimation au niveau du nœud, ce qui suggère que les nœuds peuvent collaborer pour résoudre plus efficacement leurs tâches individuelles, tout en essayant de limiter le partage des données entre eux. Notre principale contribution est un cadre non paramétrique distribué pour la LRE basée sur les graphes, appelé GRULSIF, qui incorpore de manière novatrice des éléments provenant des fonctionnelles de divergence f, des méthodes à noyau et de l'apprentissage multitâche. Parmi les différentes applications de l'ERL, nous choisissons le test d'hypothèse à deux échantillons pour développer une preuve de concept pour notre cadre d'apprentissage basé sur les graphes. Nos expériences comparent favorablement les performances de notre approche à celles des tests statistiques non paramétriques de pointe qui s'appliquent à chaque nœud indépendamment, et qui ne tiennent donc pas compte de la structure du graphe.
Résumé : Nous étudions le problème de l'équité algorithmique dans le cas où des caractéristiques sensibles et non sensibles sont disponibles et où l'on cherche à générer de nouvelles caractéristiques "oubliées" qui se rapprochent étroitement des caractéristiques non sensibles et ne dépendent que très peu des caractéristiques sensibles. Nous étudions cette question dans le contexte des méthodes à noyau. Nous analysons une version assouplie du critère du maximum d'écart moyen qui ne garantit pas une indépendance totale mais rend le problème d'optimisation traitable. Nous dérivons une solution de forme fermée pour ce problème d'optimisation détendue et complétons le résultat par une étude des dépendances entre les caractéristiques nouvellement générées et les caractéristiques sensibles. Notre ingrédient clé pour générer de telles caractéristiques inconscientes est une espérance conditionnelle évaluée dans l'espace de Hilbert, qui doit être estimée à partir des données. Nous proposons une approche par plug-in et démontrons comment les erreurs d'estimation peuvent être contrôlées. Bien que nos techniques contribuent à réduire le biais, nous tenons à souligner qu'aucun post-traitement d'un ensemble de données ne peut remplacer des expériences bien conçues.
Reference: S. Grünewälder, A. Khaleghi, Oblivious Data for Fairness with Kernels, Journal of Machine Learning Research, (208): 1-36, 2021.