Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-intrinsically-motivated-rl

This is an old revision of the document!


Memento sur [Singh2005]

  • motivation intrinsèque : action provoquée par la recherche d'une récompense.
  • motivation extrinsèque : action provoquée par l'envie de faire quelque chose de bien.

L'idée est de se baser sur des faits de neuroscience pour créer l'agent. Le modulateur de dopamine n'est pas seulement associé au système de récompense, mais aussi dans le processus d'exploration.

En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l'environnement, mais d'un module “Internal environnement” de l'agent qui agirait sur cet environnement.

Option : ressemble à une sous-routine. Ca consiste en :

  • Une politique : indique à l'agent quel comportement avoir pour atteindre un certain état
  • Un ensemble d'initiation : indique comment les états peuvent être amorcés
  • Une condition de fin

Deux composants des options sont important :

  • Les modèles d'options : description probabiliste des effets de exécution de l'option. Cela donne la probabilité que l'option se termine sur un autre état que celui qui est prévu.
  • La méthode d'apprentissage intra-option : permet l'actualisation des politiques de plusieurs options pendant que l'agent interagi avec l'environnement.
memento-intrinsically-motivated-rl.1739290985.txt.gz · Last modified: 2025/02/11 17:23 by 47.128.51.217