Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-value-function-approximation

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
memento-value-function-approximation [2025/03/05 17:48]
47.128.63.83 old revision restored (2025/02/27 05:28)
memento-value-function-approximation [2025/04/02 05:32] (current)
47.128.54.124 old revision restored (2025/02/28 18:16)
Line 8: Line 8:
    * Fourier    * Fourier
    * ...    * ...
 +
 +Définitions :
 +   * Off-policy : Actualisation des valeurs à partir de l'état suivant et de l'action "gloutonne".
 +   * On-policy : Actualisation des valeurs à partir de l'état suivant et l'action de la politique courante.
 +
 +===Algorithme du gradient===
 +
 +Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).
 +
 +Le gradient de J(w) est défini sous forme matricielle, [[http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/FA.pdf | voir diapo 11]]
 +
 +Permet de trouver un minimum local J(w)
 +
 +Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur.
 +
 +
 +Questions : 
 +   * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ?
 +
 +===Représentation d'un état dans un vector===
 +
 +Ranger dans le vector les n valeurs du même état.
 +
 +===Fonction approximation de valeur linéaire===
 +(Linear Value Function Approximation)
 +
 +   * La descente de gradient stochastique converge vers un optimum global.
 +   * Actualisation = step-size * prediction error * feature value
 +
 +Questions : 
 +   * Qu'est ce qu'on appelle une feature ?
 +
 +===Least Squares Prediction===
 +
 +Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.
 +
 +===Stochastic Gradient Descent with Experience Replay===
 +
 +Expérience donnée sous la forme de pair <Etat, Valeur>.
 +(Voir diapo 37 pour plus de détails)
 +
 +===Experience Replay in Deep Q-Network===
 +
 +   * DQN utilisent l'experience replay.
 +   * Choix d'action en fonction d'une politique gloutonne.
 +   * Sauvegarde les transitions en replay memomry
 +   * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
 +   * Utilise une variante de la descente de gradient stochastique
 +
 +
 +
  
  
  
  
memento-value-function-approximation.1741193338.txt.gz · Last modified: 2025/03/05 17:48 by 47.128.63.83