Thème de Recherche d'Alain Dutech

Auto-organisation structurelle guidée et motivée d’un agent autonome

Généralités

Avec mes collègues de l’équipe BISCUIT, qui ont une forte expérience dans le connexionisme auto-organisé (cartes auto-organisatrices de Kohonen, champs neuronaux continus ) ou récurrent, nous voulons doter les agents d’une physiologie artificielle que l’on pourrait qualifier de neuromorphique : constituée d’un grand nombre d’unités de calcul distribuées obéissant à des règles simples et couplées entre elles. Outre des propriétés de robustesse et de passage à l’échelle, ces architectures peuvent être vues comme des systèmes dynamiques avec un éventail de comportements extrêmement riches, surtout quand ils sont placés à la frontière du chaos (Langton 1990). Nourrie par un flux sensorimoteur, l’activité de ce genre d’architecture peut se traduire par des comportements moteurs très variés.

Si l’on fait varier les paramètres du système neuromorphique, notamment la structure et la force des couplages mis en œuvre mais aussi les paramètres intrinsèques aux unités de calcul (par exemple des gains, des seuils d’activation, des périodes réfractaires, etc), on modifie la dynamique du système et donc le comportement de l’agent dans son environnement. A l’image du cadre de l’apprentissage par renforcement, il est possible d’évaluer l’adéquation du comportement moteur en fonction des motivations ou de la tâche de l’agent. Notre but est d’utiliser cette évaluation, qui peut n’être qu’un simple signal scalaire, pour guider et orienter les variations des paramètres du système neuromorphique.

Il existe déjà de nombreuses règles de plasticité et d’adaptation qui ont été étudiées et expérimentées dans des systèmes neuromorphiques. Nous voulons mettre l’accent sur des règles qui soient compatibles avec les architectures neuromorphiques, c’est-à-dire locales, distribuées et décentralisées, mais qui, bien que largement non-supervisées, puissent tenir compte de l’évaluation plus globale du comportement de l’agent. Pour schématiser, nous cherchons à proposer des règles d’adaptation qui permettent de “guider” l’émergence des comportements d’un agent artificiel.

Cette thématique de recherche est très exploratoire et expérimentale. Nous cherchons en particulier à mieux cerner les propriétés et les caractéristiques des différentes architectures ou mécanismes d’adaptation que nous étudions. Nos questionnements se concentrent sur les capacités en terme de représentation, de structuration ou de généralisation. Nous aimerions ainsi déterminer quels ensembles de mécanismes et architectures “innées” sont suffisantes pour qu’un agent puisse développer, en autonomie, des comportements pertinents mais aussi des représentations ancrées dans son interaction avec son environnement.

De manière plus concrète, mes travaux actuels progressent selon quatre axes orientés par cette thématique générale.

Apprentissage par renforcement avec cartes auto-organisatrices

De par leurs propriétés, les cartes auto-organisatrices permettent une quantification vectorielle adaptée, pertinente et adaptative d’un espace continu (Kohonen 2013). Avec J. FIX, nous avons exploré les avantages et limitations de cartes récurrentes ou dynamiques pour estimer la fonction valeur dans le cadre de l’apprentissage par renforcement en espace d’état continu (Dutech, Fix, and Frezza-Buet 2018), (Calba, Dutech, and Fix 2021). La suite logique est de guider l’auto-organisation des cartes en utilisant explicitement le signal de renforcement, une originalité qui n’a pas encore été envisagée dans la littérature. Cela pourrait en outre se faire avec des cartes de taille variable (s’inspirant de (Montazeri, Moradi, and Safabakhsh 2011)) et dans le cadre du transfert de connaissance (voir (George Karimpanal and Bouffanais 2019)).

Apprentissage par renforcement en temps continu

Les mécanismes d’adaptation que nous essayons de développer ne peuvent s’appuyer sur une horloge centrale discrétisant le temps en instants de décision pertinents, comme c’est le cas dans l’apprentissage par renforcement classique. Je travaille d’une part sur une approche établie où l’erreur de différence temporelle lie la fonction valeur à sa dérivée (voir (Doya 2000)), en insistant sur les aspects décentralisé des architecture. En lien avec les travaux de Frémaux (Frémaux, Sprekeler, and Gerstner 2013), nous travaillons sur une implémentation neuromorphique de ces algorithmes en temps continu. Par ailleurs, avec H. Frezza-Buet, nous cherchons une solution plus originale à ce problème en nous focalisant sur l’apprentissage d’«événements de décision» en combinant des Continuous Neural Fields (Sandamirskaya 2014). Cette recherche résonne avec une problématique fondamentale des travaux sur la cognition : comment se forment les représentation conceptuelles spatiales et temporelles (Gallistel 1989).

Apprentissage non-associatif

L’habituation et la sensitisation sont deux mécanismes d’apprentissage non-associatif présents dans les organismes très simples, et parfois monocellulaires. Ces mécanismes sont qualifiés de fondamentaux, ils induisent des capacités d’adaptations primaires qui permettent de passer outres les comportements réflexes (Rankin et al. 2009). Nos travaux actuels s’inspirent de ces mécanismes décrits mais peu modélisés par les biologistes pour proposer de nouvelles méthodes d’apprentissage non-supervisé pouvant être déterminant pour l’auto-organisation des comportements d’un agent (Kelso 1995).

Puces Neuromorphiques et Apprentissage par Renforcement

En collaboration avec B. GIRAU qui dirige l’équipe BISCUIT et qui est membre de Intel Neuromorphic Research Community, nous travaillons directement sur des algorithmes d’apprentissage par renforcement sur des processeurs neuromorphiques de type Loihi. Pour aller plus loin que les nombreux travaux qui n’utilisent le signal de renforcement que pour apprendre de manière supervisée en modulant la Spike Timing Dependent Plasticity (STDP), nous expérimentons des algorithmes qui permettent de faire de la véritable décision séquentielle où la récompense n’est reçue qu’à l’issue d’une séquence d’action. Les difficultés essentielles viennent de l’adaptation de ces algorithmes aux contraintes matérielles, adaptation qui pose alors des problèmes en terme de convergence et de garanties de ces méthodes approchées.

Psyphine et les inter-action auto-organisées

Outres les axes précédents qui relèvent plus directement de l’informatique au sens large, je continue à travailler dans le cadre pluri-disciplinaire du groupe Psyphine. Nous cherchons notamment à comprendre et documenter comment une véritable inter-action peut naître entre un dispositif artificiel (lampe motorisée) dont les comportements sont adaptés de manière auto-organisée et un être humain.

Concrètement, nous disposons d’une lampe robotisée équipée d’une caméra. Les points de saillance détectés sur l’image nourrissent une carte de Kohonen qui s’auto-organise pour catégoriser les situations perçues en différentes classes. Chaque classe est associée à une famille de mouvements ce qui fait que la lampe «s’adapte» de manière non-supervisée au comportement de son interlocuteur. La question devient alors : comment, et pourquoi, l’être humain parvient, ou pas, à prêter une vie intérieure à ce dispositif ?

Références

Calba, Antonin, Alain Dutech, and Jérémy Fix. 2021. “Density Independant Self-Organized Support for Q-Value Function Interpolation in Reinforcement Learning.” In European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN 2021), 6 P. Bruges, Belgium.

Doya, K. 2000. “Reinforcement Learning in Continuous Time and Space.” Neural Computation 12.

Dutech, Alain, Jérémy Fix, and Hervé Frezza-Buet. 2018. “Reconstruction d’état caché avec cartes auto-organisatrices récurrentes.” In JFPDA 2018 - Journées Francophones sur la Planification, la Décision et l’Apprentissage pour la conduite de systèmes, 1–3. Nancy, France. https://hal.inria.fr/hal-01840627.

Frémaux, Nicolas, Henning Sprekeler, and Wulfram Gerstner. 2013. “Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons.” PLOS Computational Biology 9 (4). Public Library of Science: e1003024+. https://doi.org/10.1371/journal.pcbi.1003024.

Gallistel, Charles R. 1989. “Animal Cognition: The Representation of Space, Time and Number.” Annual Review of Psychology 40 (1). Annual Reviews 4139 El Camino Way, PO Box 10139, Palo Alto, CA 94303-0139, USA: 155–89.

George Karimpanal, Thommen, and Roland Bouffanais. 2019. “Self-Organizing Maps for Storage and Transfer of Knowledge in Reinforcement Learning.” Adaptive Behavior 27 (2). SAGE Publications Sage UK: London, England: 111–26.

Kelso, JA Scott. 1995. Dynamic Patterns: The Self-Organization of Brain and Behavior. MIT press.

Kohonen, Teuvo. 2013. “Essentials of the Self-Organizing Map.” Neural Networks 37. Elsevier: 52–65.

Langton, Chris G. 1990. “Computation at the Edge of Chaos: Phase Transitions and Emergent Computation.” Physica D: Nonlinear Phenomena 42 (1-3). Elsevier: 12–37.

Montazeri, Hesam, Sajjad Moradi, and Reza Safabakhsh. 2011. “Continuous State/Action Reinforcement Learning: A Growing Self-Organizing Map Approach.” Neurocomputing 74 (7). Elsevier: 1069–82.

Rankin, Catharine H, Thomas Abrams, Robert J Barry, Seema Bhatnagar, David F Clayton, John Colombo, Gianluca Coppola, et al. 2009. “Habituation Revisited: An Updated and Revised Description of the Behavioral Characteristics of Habituation.” Neurobiology of Learning and Memory 92 (2). Elsevier: 135–38.

Sandamirskaya, Yulia. 2014. “Dynamic Neural Fields as a Step Toward Cognitive Neuromorphic Architectures.” Frontiers in Neuroscience 7. Frontiers: 276.


Spam Poison
Dernière mise à jour par Alain le 23 septembre 2021