Séminaire DataIA | José Dolz - Vers une adaptation robuste et efficace des modèles fondamentaux vision-langage

Titre
Vers une adaptation robuste et efficace des modèles fondamentaux vision-langage
Résumé
L'apprentissage profond (Deep Learning, DL) a atteint des performances remarquables dans un large éventail de problèmes de reconnaissance visuelle dans des domaines stratégiques pour notre société, tels que la santé, la vidéo-surveillance ou la conduite autonome. En particulier, les modèles vision-langage (VLMs), entraînés à grande échelle, ont récemment émergé comme un nouveau paradigme d’apprentissage, démontrant des capacités inédites en termes d’apprentissage sans étiquettes (zero-shot) et de transfert. Néanmoins, ces modèles présentent des inconvénients importants qui limitent leur déploiement dans des scénarios du monde réel. Tout d’abord, malgré les performances impressionnantes atteintes par les VLMs, ceux-ci ne se généralisent pas bien à des scénarios inédits, tels que de nouvelles classes ou des distributions présentant un changement de domaine. Ils requièrent typiquement de grands jeux de données annotées pour chaque nouvelle tâche. Or, obtenir de telles annotations peut être un processus fastidieux dans plusieurs domaines, comme la santé, qui nécessite souvent une expertise humaine et souffre d’une variabilité inter/intra-annotateur. Une pratique courante pour adapter les VLMs à de nouvelles tâches consiste à ajuster (fine-tuning) un modèle pré-entraîné (comme CLIP) à l’aide d’échantillons annotés de la tâche cible. Même si cette technique permet une utilisation plus générale des VLMs, elle augmente la charge computationnelle, la rendant sous-optimale dans les scénarios où l’accès aux données et annotations est limité. De plus, des travaux récents montrent que les VLMs adaptés souffrent d’un mauvais calibrage, c’est-à-dire que les scores de confiance de leurs prédictions ne reflètent pas fidèlement les probabilités réelles que ces prédictions soient correctes. Ainsi, ces modèles ont tendance à produire des estimations excessivement confiantes, même dans des situations de grande incertitude, ce qui les rend mal calibrés et peu fiables. Ce problème est encore amplifié lorsque le modèle est adapté dans un contexte avec peu de données annotées, un paradigme d’apprentissage populaire pour réduire le besoin de grands jeux de données annotées lors de l’adaptation de modèles comme CLIP. Ainsi, dans cette présentation, nous discuterons de différentes approches permettant d’adapter efficacement les VLMs à de nouvelles tâches présentant soit un changement de domaine, soit un changement de distribution des étiquettes, et de la manière de mieux modéliser les estimations d’incertitude.
Biographie
José Dolz est professeur associé au département de génie logiciel et informatique de l'ETS Montréal. Avant d'être nommé professeur, il fut chercheur post-doctoral dans la même institution. José a obtenu son B.Sc et M.Sc à l'Université polytechnique de Valence, en Espagne, et son doctorat à l'Université de Lille 2, en France, en 2016. Il a bénéficié d'une bourse Marie-Curie FP7 (2013-2016) pour poursuivre mes études doctorales. Ses recherches actuelles portent sur l'apprentissage profond, l'imagerie médicale, l'optimisation et les stratégies d'apprentissage avec une supervision limitée. À ce jour, il a (co-)écrit plus de 80 articles entièrement évalués par des pairs, dont beaucoup ont été publiés dans les meilleurs sites d'imagerie médicale (MICCAI/IPMI/MedIA/TMI/NeuroImage), de vision par ordinateur (CVPR, ICCV, ECCV) et d'apprentissage automatique (ICML, NeurIPS). De plus, il a donné 5 tutoriels sur l'apprentissage avec supervision limitée à MICCAI (2019-2022) et ICPR(2022), et un sur les modèles de fondation (MICCAI 2024). José Dolz a participé à l'organisation de trois écoles d'été sur l'apprentissage profond pour l'imagerie médicale et a été reconnu plusieurs fois en tant que réviseur exceptionnel (MICCAI'20, ECCV'20, CVPR'21, CVPR'22, NeurIPS'22, ICCV'23).
- Le séminaire aura lieu le mardi 6 mai 2025, de 12h30 à 14h à CentraleSupélec, Amphi I (bâtiment Eiffel) à Gif-sur-Yvette ;
- Une pause café sera servie à l'issue.