This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-value-function-approximation [2025/12/16 06:43] 47.128.63.152 old revision restored (2025/11/24 05:27) |
memento-value-function-approximation [2025/12/29 05:28] (current) 106.49.60.24 old revision restored (2025/11/19 22:52) |
||
|---|---|---|---|
| Line 8: | Line 8: | ||
| * Fourier | * Fourier | ||
| * ... | * ... | ||
| - | |||
| - | Définitions : | ||
| - | * Off-policy : Actualisation des valeurs à partir de l' | ||
| - | * On-policy : Actualisation des valeurs à partir de l' | ||
| ===Algorithme du gradient=== | ===Algorithme du gradient=== | ||
| Line 56: | Line 52: | ||
| * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | ||
| * Utilise une variante de la descente de gradient stochastique | * Utilise une variante de la descente de gradient stochastique | ||
| - | + | | |