This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-value-function-approximation [2025/12/28 23:50] 173.44.34.59 old revision restored (2025/08/29 09:54) |
memento-value-function-approximation [2025/12/29 05:28] (current) 106.49.60.24 old revision restored (2025/11/19 22:52) |
||
|---|---|---|---|
| Line 8: | Line 8: | ||
| * Fourier | * Fourier | ||
| * ... | * ... | ||
| - | |||
| - | Définitions : | ||
| - | * Off-policy : Actualisation des valeurs à partir de l' | ||
| - | * On-policy : Actualisation des valeurs à partir de l' | ||
| ===Algorithme du gradient=== | ===Algorithme du gradient=== | ||
| Line 56: | Line 52: | ||
| * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | ||
| * Utilise une variante de la descente de gradient stochastique | * Utilise une variante de la descente de gradient stochastique | ||
| - | + | | |