This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-intrinsically-motivated-rl [2025/11/05 20:25] 66.249.70.198 old revision restored (2025/08/26 06:16) |
memento-intrinsically-motivated-rl [2025/11/13 02:36] (current) 216.73.216.15 old revision restored (2025/11/06 00:12) |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| =====Memento sur [Singh2005]===== | =====Memento sur [Singh2005]===== | ||
| + | |||
| + | * motivation intrinsèque : action provoquée par la recherche d'une récompense. | ||
| + | * motivation extrinsèque : action provoquée par l' | ||
| + | |||
| + | L' | ||
| + | |||
| + | En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l' | ||
| + | |||
| + | Option : ressemble à une sous-routine. Ca consiste en : | ||
| + | * Une politique : indique à l' | ||
| + | * Un ensemble d' | ||
| + | * Une condition de fin | ||
| + | |||
| + | Deux composants des options sont important : | ||
| + | * Les modèles d' | ||
| + | * La méthode d' | ||
| + | |||
| + | // Pourquoi utiliser le QLearning et le MDP au lieu de l'un ou l' | ||
| + | |||
| + | |||