This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-intrinsically-motivated-rl [2025/11/06 00:48] 130.94.220.64 old revision restored (2025/10/19 12:09) |
memento-intrinsically-motivated-rl [2025/11/13 02:36] (current) 216.73.216.15 old revision restored (2025/11/06 00:12) |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | =====Mémento | + | =====Memento |
| * motivation intrinsèque : action provoquée par la recherche d'une récompense. | * motivation intrinsèque : action provoquée par la recherche d'une récompense. | ||
| Line 17: | Line 17: | ||
| * La méthode d' | * La méthode d' | ||
| - | <note important> | + | // Pourquoi utiliser le QLearning et le MDP au lieu de l'un ou l' |
| - | + | ||
| - | L' | + | |
| - | + | ||
| - | L' | + | |
| - | + | ||
| - | Lorsque l' | + | |
| - | + | ||
| - | Lorsque l' | + | |
| - | | + | |
| - | -La récompense intrinsèque va diminuer, et l' | + | |
| - | + | ||
| - | + | ||
| - | Comme le montre la figure 4 (cf document), les évènements simple sont appris en premier. Même si leur récompense diminue, ils continuent d' | + | |
| - | + | ||
| - | Conclusion : | + | |
| - | Un agent qui a une collection de compétences apprises à partir de récompenses intrinsèques peut apprendre un large éventail de tâches récompensées extrinsèquement plus facilement | + | |