This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-value-function-approximation [2025/11/04 10:55] 66.249.70.199 old revision restored (2025/08/29 15:26) |
memento-value-function-approximation [2025/11/12 23:59] (current) 86.97.53.77 old revision restored (2025/08/09 03:34) |
||
|---|---|---|---|
| Line 9: | Line 9: | ||
| * ... | * ... | ||
| - | ===Descente de gradient=== | + | ===Algorithme du gradient=== |
| Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). | Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). | ||
| Line 35: | Line 35: | ||
| Questions : | Questions : | ||
| * Qu'est ce qu'on appelle une feature ? | * Qu'est ce qu'on appelle une feature ? | ||
| + | |||
| + | ===Least Squares Prediction=== | ||
| + | |||
| + | Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible. | ||
| + | |||
| + | ===Stochastic Gradient Descent with Experience Replay=== | ||
| + | |||
| + | Expérience donnée sous la forme de pair <Etat, Valeur>. | ||
| + | (Voir diapo 37 pour plus de détails) | ||
| + | |||
| + | ===Experience Replay in Deep Q-Network=== | ||
| + | |||
| + | * DQN utilisent l' | ||
| + | * Choix d' | ||
| + | * Sauvegarde les transitions en replay memomry | ||
| + | * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | ||
| + | * Utilise une variante de la descente de gradient stochastique | ||
| + | | ||