This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-intrinsically-motivated-rl [2025/07/03 21:23] 216.73.216.192 old revision restored (2025/06/05 04:39) |
memento-intrinsically-motivated-rl [2025/07/17 15:11] (current) 47.128.58.178 old revision restored (2025/06/30 22:24) |
||
---|---|---|---|
Line 6: | Line 6: | ||
L' | L' | ||
- | En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l' | + | En appliquant ça au RL, il est possible de développer le système agent-environnement classique. Les récompenses ne viendraient pas de l' |
- | Option : ressemble à une sous-routine. Ca consiste en : | ||
- | * Une politique : indique à l' | ||
- | * Un ensemble d' | ||
- | * Une condition de fin | ||
- | |||
- | Deux composants des options sont important : | ||
- | * Les modèles d' | ||
- | * La méthode d' | ||
- | |||
- | // Pourquoi utiliser le QLearning et le MDP au lieu de l'un ou l' | ||