SÉMINAIRE L2S l Liang Zheng - The Many Meanings with image pairs’’’’
Résumé
L'entrainement de modèles d'IA avec des paires d'images a été étudiée depuis longtemps et s'est avérée très utile. Dans cette présentation, je vais d'abord revisiter les pratiques populaires d'utilisation des paires de données dans diverses tâches de vision par ordinateur : de la reconnaissance faciale, la ré-identification de personnes, à l'apprentissage contrastif dans les modèles fondamentaux. Ensuite, je discuterai des données de préférences humaines : entre deux images, les gens préfèrent généralement l'une par rapport à l'autre. Ce type de paire de données peut être utilisé pour aligner les modèles de diffusion avec les préférences humaines, afin que ces modèles génèrent plus souvent des images que les gens aiment. Je décrirai comment nous abordons ce problème en alignant les préférences humaines à différentes étapes de débruitage. Cette méthode améliore efficacement les modèles de diffusion stable (SD) et SDXL, tout en accélérant le processus de réglage fin par un facteur de dix par rapport aux méthodes existantes.
Entrée libre.