Apprentissage incrémental de modèles d'action relationnels
Christophe Rodrigues (LIPN - Université Paris13)
9 avr. 2015 - 14:00Nous nous intéressons à l'apprentissage artificiel pour l'action. Nous nous situons à l'intersection de l'apprentissage par renforcement (RL) et de la programmation logique inductive (ILP). Nous étudions plus précisément l'apprentissage de modèles d'actions. Un modèle d'action décrit les conditions et effets des actions possibles dans un environnement. Il permet d'anticiper les conséquences des actions d'un agent et peut aussi être utilisé par un planificateur. Nous nous intéressons en particulier à une représentation relationnelle des environnements. Nous décrivons alors les états et les actions à l'aide d'objets et de relations entre les différents objets qui les composent.
Nous présentons la méthode IRALe apprenant de façon incrémentale des modèles d'action relationnels guidée par les données et de façon ascendante. Nous commençons par supposer que les états sont entièrement observables et que les conséquences des actions sont déterministes. Nous apportons une preuve de convergence pour cette méthode. Par la suite, nous généralisons l'approche afin de traiter une perception incertaine de l'environnement.
De plus, nous développons une approche d'exploration active qui essaye de focaliser l'expérience de l'agent sur des actions supposées non couvertes par le modèle.
Enfin, nous présentons une adaptation de ce travail au cadre multi-agents. Chaque agent individualiste est autonome et embarque un planificateur générique capable d'utiliser directement son modèle d'action appris au fur et à mesure de l'exploration de l'environnement. Chaque agent peut envoyer des requêtes aux autres afin d'obtenir confirmation de la correction relative de ses connaissances.
Pour chaque approche, nous illustrons empiriquement son intérêt sur plusieurs problèmes de planification. Les résultats obtenus montrent que le nombre d'interactions nécessaires avec les environnements est très faible comparé à la taille des espaces d'états considérés.