Catégorie
Le Séminaire Palaisien

« Le Séminaire Palaisien » | Aymeric Dieuleveut & Pierre Ablin

Bandeau image
Séminaire Le Palaisien
Date de tri
Lieu de l'événement
Inria Saclay, Amphithéâtre Sophie Germain

Partager

twlkml
Chapo
Le séminaire Palaisien réunit, chaque premier mardi du mois, la vaste communauté de recherche de Saclay autour de la statistique et de l'apprentissage machine.
Contenu
Corps de texte

Chaque session du séminaire est divisée en deux présentations scientifiques de 40 minutes chacune : 30 minutes d’exposé et 10 minutes de questions.

Aymeric Dieuleveut et Pierre Ablin animeront la première session de 2024 !


Inscriptions gratuites mais obligatoires, dans la limite des places disponibles. Un buffet sera servi à l'issue du séminaire.

En savoir plus
Nom de l'accordéon
Aymeric Dieuleveut | "Provable non-accelerations of the heavy-ball method"
Texte dans l'accordéon

Résumé

Nous montrons que la méthode de la boule lourde (HB) n'atteint pas un taux de convergence accéléré sur les problèmes lisses fortement convexes. Plus précisément, nous montrons que pour tout nombre de conditions et tout choix de paramètres algorithmiques, soit le taux de convergence de HB dans le pire des cas sur la classe des fonctions quadratiques L-lisses et μ-fortement convexes n'est pas accéléré (c'est-à-dire plus lent que 1 - O(κ)), soit il existe une fonction L-lisse μ-fortement convexe et une initialisation telle que la méthode ne converge pas.

A notre connaissance, ce résultat clôt une question simple mais ouverte sur l'une des techniques d'optimisation du premier ordre les plus utilisées et les plus emblématiques. Notre approche consiste à trouver des fonctions pour lesquelles HB ne converge pas et passe par un nombre fini d'itérations. Nous décrivons analytiquement toutes les paramétrisations de HB qui présentent ce comportement cyclique sur une forme de cycle particulière, dont le choix est étayé par une approche systématique et constructive de l'étude des comportements cycliques des méthodes du premier ordre. Nous montrons la robustesse de nos résultats aux perturbations du cycle, et les étendons à une classe de fonctions qui satisfont également des conditions de régularité d'ordre supérieur.

Nom de l'accordéon
Pierre Ablin | "Adaptive Training Distributions with Scalable Online Bilevel Optimization"
Texte dans l'accordéon

Résumé

Les grands réseaux neuronaux pré-entraînés sur des corpus à l'échelle du web sont au cœur de l'apprentissage automatique moderne. Dans ce paradigme, la distribution des grandes données hétérogènes de préformation correspond rarement à celle du domaine d'application. Ce travail envisage la modification de la distribution de pré-entraînement dans le cas où l'on dispose d'un petit échantillon de données reflétant les conditions de test ciblées. Nous proposons un algorithme motivé par une formulation récente de ce cadre en tant que problème d'optimisation en ligne à deux niveaux. Dans un souci d'évolutivité, notre algorithme donne la priorité au calcul des gradients aux points d'entraînement qui sont susceptibles d'améliorer le plus la perte sur la distribution ciblée. De manière empirique, nous montrons que dans certains cas, cette approche est bénéfique par rapport aux stratégies existantes dans la littérature sur l'adaptation au domaine, mais qu'elle peut échouer dans d'autres cas. Nous proposons un test simple pour évaluer quand notre approche peut être considérée comme efficace et nous indiquons des pistes de recherche pour remédier aux limitations actuelles.

Cet exposé est basé sur cet article.