This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-value-function-approximation [2025/07/15 19:50] 47.128.19.217 old revision restored (2025/07/03 23:43) |
memento-value-function-approximation [2025/07/19 18:40] (current) 216.73.216.28 old revision restored (2025/07/17 18:27) |
||
---|---|---|---|
Line 8: | Line 8: | ||
* Fourier | * Fourier | ||
* ... | * ... | ||
- | |||
- | ===Algorithme du gradient=== | ||
- | |||
- | Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). | ||
- | |||
- | Le gradient de J(w) est défini sous forme matricielle, | ||
- | |||
- | Permet de trouver un minimum local J(w) | ||
- | |||
- | Objectif : Trouver le paramètre w qui minimise le carré de l' | ||
- | |||
- | |||
- | Questions : | ||
- | * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ? | ||
- | |||
- | ===Représentation d'un état dans un vector=== | ||
- | |||
- | Ranger dans le vector les n valeurs du même état. | ||
- | |||
- | ===Fonction approximation de valeur linéaire=== | ||
- | (Linear Value Function Approximation) | ||
- | |||
- | * La descente de gradient stochastique converge vers un optimum global. | ||
- | * Actualisation = step-size * prediction error * feature value | ||
- | |||
- | Questions : | ||
- | * Qu'est ce qu'on appelle une feature ? | ||
- | |||
- | ===Least Squares Prediction=== | ||
- | |||
- | Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible. | ||
- | |||
- | ===Stochastic Gradient Descent with Experience Replay=== | ||
- | |||
- | Expérience donnée sous la forme de pair <Etat, Valeur>. | ||
- | (Voir diapo 37 pour plus de détails) | ||
- | |||
- | ===Experience Replay in Deep Q-Network=== | ||
- | |||
- | * DQN utilisent l' | ||
- | * Choix d' | ||
- | * Sauvegarde les transitions en replay memomry | ||
- | * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning | ||
- | * Utilise une variante de la descente de gradient stochastique | ||
- | |||
- | |||
- | |||