Niveau d'étude
BAC +5 / master
ECTS
5 crédits
Composante
Faculté des sciences
Liste des enseignements
Au choix : 1 parmi 2
Apprentissage par renforcement et modèles génératifs I
3 crédits
Données biologiques : introduction à l'analyse de survie
Niveau d'étude
BAC +5 / master
ECTS
2 crédits
Composante
Faculté des sciences
Le problème des données manquantes est fréquemment rencontré dans un grand nombre de domaines d’applications statistiques. Dans le cadre de la biologie, il n’est pas rare que l’acquisition de données de suivi soit en partie incomplète : pour un essai thérapeutique, le temps de rémission puis de guérison d’un patient peut être trop long et donc jamais observé, on parle alors de données censurées. Dans ce cours, nous introduirons la méthodologie (fonction de survie, risque instantané, …) et les outils statistiques (estimateur de Kaplan-Meier, Nelson-Aalen, …) qui permettent d’appréhender ce genre de problèmes. Une implémentation sur R sera aussi proposée.
Données numériques : "Apprentissage par renforcement et modèles génératifs II"
Niveau d'étude
BAC +5 / master
ECTS
2 crédits
Composante
Faculté des sciences
Les méthodes génératives profondes suscitent depuis récemment un très grand intérêt dans la société, pour les impressionnantes capacités que ces outils (e.g., Dall-E, ChatGPT, SORA) démontrent, en terme de qualité de contenu produit et d’interprétation des besoins de l’utilisateur. L’objectif de ce cours est de découvrir les concepts fondamentaux sous-jacents au fonctionnement de ces applications puissantes, en commençant par quelques fondamentaux sur l’apprentissage génératif, et les méthodes modernes pour guider cet apprentissage (VAE, VQ-VAE, GAN, Diffusion, apprentissage contrastif, etc.). L’idée de l’apprentissage génératif est de reproduire des distributions de données dont on observe des échantillons en apprentissage, ce cours se confronte à cet objectif ambitieux pour des distributions de données complexes, tels que des images ou du texte. Nous examinerons notamment comment les transformeurs révolutionnent la génération de texte en capturant des dépendances long terme, permettant d’envisager un très large spectre d’applications guidées par le langage. Nous explorerons comment l’apprentissage par imitation peut être utilisé pour générer des données en imitant des comportements ou des styles spécifiques.Enfin, nous verrons comment l’apprentissage par renforcement peut guider la génération de contenu créatif en optimisant les actions pour maximiser une récompense donnée.
1. Concepts Fondamentaux de l’Apprentissage Génératif
— Exploration des principes de base de l’apprentissage génératif.
— Présentation des grandes familles d’algorithmes d’apprentissage génératif: VAE (et VQ-VAE), GANs, modèles de diffusion, apprentissage contrastif, etc.
2. Architectures neuronales profondes pour la prise en compte de dépendances long terme
— Différentes familles d’architectures profondes : MLP, CNNs, RNNs, Transformers
— Applications pour la générations de données complexes
— Modèles de fondation guidés par le langage: techniques d’adaptation (in-context learning, LORA, mixture d’experts, etc.)
3. Apprentissage par Imitation et par Renforcement pour la Génération de Contenu
— Exploration de l’utilisation de l’apprentissage par renforcement pour guider la génération de contenu, en optimisant les actions pour maximiser une récompense donnée (e.g., RLHF)
— Apprentissage par imitation hors ou en ligne (BC, AWR, GAIL, iQL, etc.)
Apprentissage par renforcement et modèles génératifs I
Niveau d'étude
BAC +5 / master
ECTS
3 crédits
Composante
Faculté des sciences
Dans le contexte de l’apprentissage automatique, l’apprentissage supervisé est souvent privilégié pour sa capacité à prédire des étiquettes ou des valeurs cibles à partir de données d’entraînement étiquetées. Cependant, ces données sont souvent difficiles à obtenir, et les modèles qui en résultent sont limités par la qualité et le domaine de cette supervision. Lorsque l’étiquetage est trop complexe ou trop coûteux à collecter, au regard de la variété des situations auxquelles l’agent décisionnel peut être confronté, l’apprentissage par renforcement offre une alternative prometteuse. L’apprentissage par renforcement, contrairement à l’apprentissage supervisé, n’exige pas une supervision explicite pour chaque exemple de données. Au lieu de cela, l’agent apprend au travers d’interactions avec son environnement, sur la base de récompenses collectées en fonction de l’utilité de ses actions pour la tâche visée.
Cette capacité à apprendre par l’expérience rend l’apprentissage par renforcement applicable à un bien plus large spectre d’applications, et permet de connecter plus finement les objectifs d’apprentissage optimisés avec les objectifs souhaités pour le modèle résultant.
L’apprentissage par renforcement est particulièrement bien adapté aux problèmes de prise de décision séquentielle, où les actions prises à un moment donné affectent les récompenses futures. Par exemple, dans le domaine de la robotique, un robot peut apprendre à naviguer dans un environnement en effectuant des actions et en observant les récompenses associées à ces actions, telles que la distance parcourue ou la minimisation des collisions. C’est également le cas pour des problèmes de génération de données séquentielles, tels que la génération de langue par exemple, où les modèles de générations pre-appris de manière auto-supervisée à prédire le prochain mot en fonction des précédents peuvent être spécialisées pour des tâches particulières par apprentissage par renforcement, permettant de considérer des scores globaux que les séquences produites (e.g. ChatGPT a été finetuné par apprentissage par renforcement sur des préférences d’utilisateurs).
Ce cours vise à couvrir les principaux concepts et méthodes de ce paradigme d’apprentissage en pleine expansion, en mettant l’accent sur les différentes approches et leurs applications pratiques. Il pourra se structurer de la manière suivante :
1.Introduction à l’Apprentissage par Renforcement
— Comparaison avec l’apprentissage supervisé
— Processus de Décision de Markov (MDP)
— Méthodes Tabulaires de Planification
— Algorithme de Bellman
—Policy Iteration et Value Iteration
2. Méthodes basées sur des Valeurs
— Q-Learning, Sarsa
— Deep Q-Networks (DQN)
3. Apprentissage par Policy Gradient et Méthodes Actor-Critic
— Policy Gradient
— Méthodes Actor-Critic: A2C, TRPO, PPO,
4. Apprentissage Hors Politique et Méthodes pour Actions Continues
— Méthodes hors politique
— Méthodes pour actions continues (DDPG, SAC, TD3)