Imaginez le jeu répétitif suivant : à chaque tour, vous devez choisir une “action” parmi N décisions possibles et, une fois l’action choisie, l’environnement vous répond par une “récompense”. L’objectif est de minimiser le regret entre vos choix effectués et la meilleure action que vous auriez sélectionnée, si vous aviez connu à l’avance les récompenses données par l’environnement. Ce cadre, appelé “bandits multi-bras”, est au coeur de l’apprentissage par renforcement et apparait dans de nombreuses applications en IA. L’objectif de ce tutoriel est de donner un panorama des principaux problèmes et algorithmes de bandits. Les problèmes sont regroupés en classes, selon le type d’environnement (stochastique vs adversarial), le type d’action (simple vs combinatoire) et le type de renforcement (informatif, semi-bandit, bandit). Nous présenterons quelques algorithmes de bandits pour ces diverses classes, et illustrerons l’exposé par quelques applications en IA.