This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-intrinsically-motivated-rl [2025/03/02 17:44] 47.128.49.241 old revision restored (2025/02/14 17:50) |
memento-intrinsically-motivated-rl [2025/04/03 04:06] (current) 47.128.59.250 old revision restored (2025/02/24 17:31) |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | =====Mémento | + | =====Memento |
- | + | ||
- | * motivation intrinsèque : action provoquée par la recherche d'une récompense. | + | |
- | * motivation extrinsèque : action provoquée par l' | + | |
- | + | ||
- | L' | + | |
- | + | ||
- | En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l' | + | |
- | + | ||
- | Option : ressemble à une sous-routine. Ca consiste en : | + | |
- | * Une politique : indique à l' | + | |
- | * Un ensemble d' | + | |
- | * Une condition de fin | + | |
- | + | ||
- | Deux composants des options sont important : | + | |
- | * Les modèles d' | + | |
- | * La méthode d' | + | |
- | + | ||
- | <note important> | + | |
- | + | ||
- | L' | + | |
- | + | ||
- | L' | + | |
- | + | ||
- | Lorsque l' | + | |
- | + | ||
- | Lorsque l' | + | |
- | | + | |
- | -La récompense intrinsèque va diminuer, et l' | + | |
- | + | ||
- | + | ||
- | Comme le montre la figure 4 (cf document), les évènements simple sont appris en premier. Même si leur récompense diminue, ils continuent d' | + | |
- | + | ||
- | Conclusion : | + | |
- | Un agent qui a une collection de compétences apprises à partir de récompenses intrinsèques peut apprendre un large éventail de tâches récompensées extrinsèquement plus facilement | + | |
- | Il serait difficile pour un agent d' | + |