Séminaire DATAIA | Aditya Mahajan "Planning and learning for partially observed systems"
Titre
Planning and learning for partially observed systems
Résumé
L'apprentissage par renforcement (AR) fournit un cadre conceptuel pour la conception d'agents qui apprennent à agir de manière optimale dans des environnements inconnus. L'apprentissage par renforcement a été utilisé avec succès dans diverses applications allant de la robotique à l'automatisation industrielle, en passant par la finance, les soins de santé et le traitement du langage naturel. Le succès du RL repose sur une base solide combinant la théorie des processus de décision de Markov (PDM) exacts et approximatifs avec des algorithmes itératifs qui garantissent l'apprentissage d'une fonction action-valeur exacte ou approximative et/ou d'une politique approximativement optimale. Cependant, la plupart des recherches sur la théorie des processus de décision de Markov se concentrent sur des systèmes avec des observations d'état complètes.
Dans diverses applications, notamment la robotique, la finance et les soins de santé, l'agent n'obtient qu'une observation partielle de l'état de l'environnement. Dans cet exposé, je décrirai un nouveau cadre pour la planification approximative et l'apprentissage pour les systèmes à observation partielle, basé sur la notion d'état d'information approximatif. L'exposé mettra en évidence les fondements théoriques solides de ce cadre, illustrera comment de nombreux résultats d'approximation existants peuvent être considérés comme un cas spécial d'état d'information approximatif, et fournira des preuves empiriques solides pour montrer que cette approche fonctionne bien dans la pratique.
Travail conjoint avec Jayakumar Subramanian, Amit Sinha, Raihan Seraj, et Erfan Seyedsalehi.
Biographie
Aditya Mahajan est professeur de génie électrique et informatique à l'Université McGill, Montréal, Canada, et professeur invité DATAIA au Laboratoire des signaux et des systèmes, Centrale-Supelec, Université Paris-Saclay. Il est membre du Centre de machines intelligentes de McGill (CIM), de l'Institut d'IA du Québec (Mila), du Laboratoire international des systèmes d'apprentissage (ILLS) du CNRS et du Groupe d'études et de recherche en analyse des décisions (GERAD). Il est titulaire d'une licence en génie électrique de l'Indian Institute of Technology, Kanpur, Inde, ainsi que d'une maîtrise et d'un doctorat en génie électrique et en informatique de l'université du Michigan, Ann Arbor, États-Unis.
Il est actuellement rédacteur en chef adjoint de l'IEEE Transactions on Automatic Control, de l'IEEE Control Systems Letters et de Springer Mathematics of Control, Signal, and Systems. Il a été rédacteur en chef adjoint du comité de rédaction de la conférence de l'IEEE Control Systems Society de 2014 à 2017.
Il a reçu le prix George Axelby Outstanding Paper Award en 2015, le prix Accélérateur de découverte du CRSNG en 2016, le CDC Best Student Paper Award en 2014 (en tant que superviseur) et le NecSys Best Student Paper Award en 2016 (en tant que superviseur). Ses recherches portent principalement sur le contrôle stochastique décentralisé, la théorie des équipes, l'apprentissage par renforcement, les bandits à plusieurs bras et la théorie de l'information.
- Le séminaire se tiendra en anglais uniquement. Il aura lieu le jeudi 16 novembre 2023, de 14h à 15h30 à CentraleSupélec, amphi sd.014 (bâtiment Bouygues), à Gif-sur-Yvette. Il sera suivi d'une pause sucrée.
- Inscriptions clôturées.
- Ce séminaire sera également retransmis en visioconférence.
Ne ratez pas l'annonce d'un nouveau séminaire DATAIA !
Inscrivez-vous à la liste de diffusion de nos séminaires en cliquant ici.