This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-value-function-approximation [2025/03/03 18:08] 47.128.38.196 old revision restored (2025/02/23 17:53) |
memento-value-function-approximation [2025/04/02 05:32] (current) 47.128.54.124 old revision restored (2025/02/28 18:16) |
||
---|---|---|---|
Line 9: | Line 9: | ||
* ... | * ... | ||
- | ===Descente de gradient=== | + | Définitions : |
+ | * Off-policy : Actualisation des valeurs à partir de l' | ||
+ | * On-policy : Actualisation des valeurs à partir de l' | ||
+ | |||
+ | ===Algorithme du gradient=== | ||
Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). | Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). | ||
Line 35: | Line 39: | ||
Questions : | Questions : | ||
* Qu'est ce qu'on appelle une feature ? | * Qu'est ce qu'on appelle une feature ? | ||
+ | |||
+ | ===Least Squares Prediction=== | ||
+ | |||
+ | Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible. | ||
+ | |||
+ | ===Stochastic Gradient Descent with Experience Replay=== | ||
+ | |||
+ | Expérience donnée sous la forme de pair <Etat, Valeur>. | ||
+ | (Voir diapo 37 pour plus de détails) | ||
+ | |||
+ | ===Experience Replay in Deep Q-Network=== | ||
+ | |||
+ | * DQN utilisent l' | ||
+ | * Choix d' | ||
+ | * Sauvegarde les transitions en replay memomry | ||
+ | * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | ||
+ | * Utilise une variante de la descente de gradient stochastique | ||
+ | |||
+ | |||