This is an old revision of the document!
L'idée est de se baser sur des faits de neuroscience pour créer l'agent. Le modulateur de dopamine n'est pas seulement associé au système de récompense, mais aussi dans le processus d'exploration.
En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l'environnement, mais d'un module “Internal environnement” de l'agent qui agirait sur cet environnement.
Option : ressemble à une sous-routine. Ca consiste en :
Deux composants des options sont important :