Pas de proposition pour l'instant
La thèse de Matthieu est co-encadrée avec Yann Boniface.
Matthieu s'intéresse à l'apprentissage par renforcement avec des espaces d'états et d'actions continus. Il cherche à les résoudre avec le moins d'a-priori possible et en étant le plus efficace possible en terme d'échantillons. Il a développé une architecture acteur-critique neuronale originale et s'attache maintenant à définir une approche développementale pour guider l'exploration de ces espaces sensori-moteur de grande dimension.
J'ai co-encadré la thèse de Raghav qui a commencé en septembre 2003.
Le coeur du travail de Raghav concernait les modèles de prise de décision dans l'incertain (Dec-POMDP). Il a développé une approche originale en s'appuyant sur la programmation mathématique pour résoudre ces problèmes de grande complexité (NEXP).
Sa page ouebe : http://members.loria.fr/olivier.buffet
Olivier a soutenu sa thèse en septembre 2003 et, après un post-doc à Canberra en Australie, a été recruté comme chercheur au LORIA par l'INRIA. J'ai co-encadré son DEA et sa thèse.
Avec Olivier nous avons travaillé sur l'utilisation de l'apprentissage par renforcement pour concevoir des systèmes multi-agents réactifs. Le coeur de ce travail s'appuie sur une approche incrémentale de l'apprentissage qui n'est pas sans rappeler le shaping des psychologues.
L'autre pan important du travail d'Olivier a concerné une approche distribuée de l'apprentissage par renforcement. Un agent, pour se doter d'un comportement complexe, apprend à combiner automatiquement des comportements plus simples. Ces travaux ont présenté aussi quelques pistes pour apprendre automatiquement a spécifier et définir les comportements basiques qui seront ensuite combinés. C'est un pas important vers les notions de méta-apprentissage et d'abstraction.
Avec Frédérick Garcia (INRA - Toulouse), Abdel-Illah Mouaddib (Université CAEN) et Olivier Sigaud (LIP6 - Paris) nous avons fondé ce groupe de travail francophone. Notre objectif est de promouvoir les échanges et les discussions au sein de notre communauté, ce qui se fait essentiellement par le biais de journées de travail axées sur l'interaction des participants et une liste de diffusion.
Page ouebe du groupe de travail : www.loria.fr/projets/PDMIA.
Cet atelier (Workshop) se déroule tous les deux ans. Il a pour vocation de rassembler la communauté européenne d'apprentissage par renforcement pour quelques jours d'information et d'échanges. Sa renommée et ses participants ont franchi l'atlantique.
Nous avons organisé la 6ème édition de l'atelier à Nancy en septembre 2003 et la prochaine édition est en cours de préparation (on murmure que cela pourrait être en Italie). Les précédents ateliers ont eu lieu à Bruxelles (1994), Milan (1995), Rennes (1997), Lugano (1999) et Utrecht (2001).
Page ouebe de la conférence : iridia.ulb.ac.be/~ewrl
Page ouebe de la 6ème édition à Nancy : www.loria.fr/conferences/EWRL6
Page ouebe du projet : www.extra.research.philips.com/euprojects/ozone
Le projet européen Ozone (IST) s'intéresse à l'intelligence ambiante. Ozone se propose de fournir une "boite à outils" générique permettant à des applications quelconque d'interagir avec des utilisateurs en utilisant de nombreuses modalités et en fonctions du contexte de cet utilisateur (environnement, média à disposition, activité, préférences). Rassemblant de nombreux partenaires, il se veut assez prospectif et démontre la faisabilité des idées à travers des démonstrateurs. Nous travaillons sur un module intelligent qui optimise le choix de la modalité d'interaction avec les utilisateurs.
Page ouebe du projet : www.proteus-iteaproject.com
Proteus est un projet européen (ITEA) qui vise à réaliser une plate-forme générique de e-maintenance industrielle. Dans ce cadre très général, je suis co-responsable du Work Package 2. Notre but est d'étudier comment les outils d'Intelligence Artificielle peuvent s'intégrer à ce projet, et nous nous sommes plus particulièrement tournés vers des problèmes de diagnostic de pannes.