Differences

This shows you the differences between two versions of the page.

--- memento-value-function-approximation [2025/07/15 22:09]
20.171.207.253 old revision restored (2025/07/03 06:14)
+++ memento-value-function-approximation [2025/07/19 18:40] (current)
216.73.216.28 old revision restored (2025/07/17 18:27)
@@ Line 8: / Line 8: @@
    * Fourier
    * ...
-===Descente de gradient===
-Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).
-Le gradient de J(w) est défini sous forme matricielle, [[http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/FA.pdf | voir diapo 11]]
-Permet de trouver un minimum local J(w)
-Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur.
-Questions :
-   * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ?
-===Représentation d'un état dans un vector===
-Ranger dans le vector les n valeurs du même état.
-===Fonction approximation de valeur linéaire===
-(Linear Value Function Approximation)
-   * La descente de gradient stochastique converge vers un optimum global.
-   * Actualisation = step-size * prediction error * feature value
-Questions :
-   * Qu'est ce qu'on appelle une feature ?

DokuWiki