Differences

This shows you the differences between two versions of the page.

--- memento-value-function-approximation [2025/12/16 16:10]
47.128.119.194 old revision restored (2025/11/19 09:25)
+++ memento-value-function-approximation [2025/12/29 05:28] (current)
106.49.60.24 old revision restored (2025/11/19 22:52)
@@ Line 8: / Line 8: @@
    * Fourier
    * ...
+===Algorithme du gradient===
+Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).
+Le gradient de J(w) est défini sous forme matricielle, [[http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/FA.pdf | voir diapo 11]]
+Permet de trouver un minimum local J(w)
+Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur.
+Questions :
+   * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ?
+===Représentation d'un état dans un vector===
+Ranger dans le vector les n valeurs du même état.
+===Fonction approximation de valeur linéaire===
+(Linear Value Function Approximation)
+   * La descente de gradient stochastique converge vers un optimum global.
+   * Actualisation = step-size * prediction error * feature value
+Questions :
+   * Qu'est ce qu'on appelle une feature ?
+===Least Squares Prediction===
+Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.
+===Stochastic Gradient Descent with Experience Replay===
+Expérience donnée sous la forme de pair <Etat, Valeur>.
+(Voir diapo 37 pour plus de détails)
+===Experience Replay in Deep Q-Network===
+   * DQN utilisent l'experience replay.
+   * Choix d'action en fonction d'une politique gloutonne.
+   * Sauvegarde les transitions en replay memomry
+   * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
+   * Utilise une variante de la descente de gradient stochastique
+   *

DokuWiki

Site Tools

Differences

Page Tools