This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-value-function-approximation [2025/02/22 19:05] 47.128.45.227 old revision restored (2025/02/09 09:59) |
memento-value-function-approximation [2025/04/02 05:32] (current) 47.128.54.124 old revision restored (2025/02/28 18:16) |
||
---|---|---|---|
Line 8: | Line 8: | ||
* Fourier | * Fourier | ||
* ... | * ... | ||
+ | |||
+ | Définitions : | ||
+ | * Off-policy : Actualisation des valeurs à partir de l' | ||
+ | * On-policy : Actualisation des valeurs à partir de l' | ||
===Algorithme du gradient=== | ===Algorithme du gradient=== | ||
Line 52: | Line 56: | ||
* Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | ||
* Utilise une variante de la descente de gradient stochastique | * Utilise une variante de la descente de gradient stochastique | ||
- | | + | |