« Le Séminaire Palaisien » | Alexandre Perez et Marco Cuturi
Chaque session du séminaire est divisée en deux présentations scientifiques de 40 minutes chacune : 30 minutes d’exposé et 10 minutes de questions.
Alexandre Perez-Lebel et Marco Cuturi animeront la session de décembre 2022.
Inscriptions gratuites mais obligatoires, dans la limite des places disponibles. Un panier sandwich est offert.
Résumé : pour prendre de bonnes décisions, les modèles d'apprentissage automatique doivent fournir des scores de confiance fiables. À cette fin, des travaux récents se sont concentrés sur le mauvais calibrage, c'est-à-dire la sur ou sous-confiance des scores des modèles. Pourtant, contrairement à une croyance répandue, la calibration n'est pas suffisante : même un classificateur avec la meilleure précision possible et une calibration parfaite peut avoir des scores de confiance très éloignés des véritables probabilités postérieures. Cela est dû à la perte de regroupement, créée par des échantillons ayant les mêmes scores de confiance mais des probabilités postérieures réelles différentes. La théorie de la règle de notation appropriée montre qu'étant donné la perte de calibration, la pièce manquante pour caractériser les erreurs individuelles est la perte de groupement. Alors qu'il existe de nombreux estimateurs de la perte de calibration, il n'en existe aucun pour la perte de groupement dans les paramètres standard. Nous proposons ici un estimateur pour approximer la perte de groupement. Nous l'utilisons pour étudier les architectures de réseaux neuronaux modernes dans les domaines de la vision et du traitement automatique des langues. Nous constatons que la perte de regroupement varie considérablement d'une architecture à l'autre et qu'elle constitue un facteur clé de comparaison des modèles les plus précis et les mieux calibrés. Nous montrons également que les changements de distribution entraînent une perte de regroupement élevée.
Résumé : je présenterai dans cet exposé une série d'efforts visant à accroître l'évolutivité et l'applicabilité des calculs d'OT. Je présenterai des efforts sur deux fronts : Dans la première partie, je discuterai de l'accélération de la résolution discrète du problème de Kantorovich, en utilisant soit l'approche de Sinkhorn, et, dans ce cas, en se concentrant sur des heuristiques efficaces pour initialiser les potentiels de Sinkhorn, ou, alternativement, en paramétrant les couplages OT comme un produit de matrices non-négatives de bas rang. Dans la deuxième partie, j'expliquerai comment une paramétrisation, dans le cadre de 2-Wasserstein, des potentiels duaux comme des réseaux neuronaux convexes d'entrée a ouvert plusieurs voies de recherche, et je le démontrerai en illustrant une application récente à une estimation conjointe multitâche de plusieurs cartes de Monge liées par un ensemble commun de paramètres.