Differences

This shows you the differences between two versions of the page.

--- memento-value-function-approximation [2025/03/03 18:08]
47.128.38.196 old revision restored (2025/02/23 17:53)
+++ memento-value-function-approximation [2025/04/02 05:32] (current)
47.128.54.124 old revision restored (2025/02/28 18:16)
@@ Line 9: / Line 9: @@
    * ...
-===Descente de gradient===
+Définitions :
+   * Off-policy : Actualisation des valeurs à partir de l'état suivant et de l'action "gloutonne".
+   * On-policy : Actualisation des valeurs à partir de l'état suivant et l'action de la politique courante.
+===Algorithme du gradient===
 Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).
@@ Line 35: / Line 39: @@
 Questions :
    * Qu'est ce qu'on appelle une feature ?
+===Least Squares Prediction===
+Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.
+===Stochastic Gradient Descent with Experience Replay===
+Expérience donnée sous la forme de pair <Etat, Valeur>.
+(Voir diapo 37 pour plus de détails)
+===Experience Replay in Deep Q-Network===
+   * DQN utilisent l'experience replay.
+   * Choix d'action en fonction d'une politique gloutonne.
+   * Sauvegarde les transitions en replay memomry
+   * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
+   * Utilise une variante de la descente de gradient stochastique

DokuWiki