This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-value-function-approximation [2025/11/07 06:35] 66.249.70.198 old revision restored (2025/08/27 09:20) |
memento-value-function-approximation [2025/11/13 21:10] (current) 216.73.216.15 old revision restored (2025/11/04 10:55) |
||
|---|---|---|---|
| Line 11: | Line 11: | ||
| ===Descente de gradient=== | ===Descente de gradient=== | ||
| - | Avec J(w), une fonction dérivable de paramètre w. | + | Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états). |
| Le gradient de J(w) est défini sous forme matricielle, | Le gradient de J(w) est défini sous forme matricielle, | ||
| Permet de trouver un minimum local J(w) | Permet de trouver un minimum local J(w) | ||
| + | |||
| + | Objectif : Trouver le paramètre w qui minimise le carré de l' | ||
| + | |||
| + | |||
| + | Questions : | ||
| + | * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ? | ||
| + | |||
| + | ===Représentation d'un état dans un vector=== | ||
| + | |||
| + | Ranger dans le vector les n valeurs du même état. | ||
| + | |||
| + | ===Fonction approximation de valeur linéaire=== | ||
| + | (Linear Value Function Approximation) | ||
| + | |||
| + | * La descente de gradient stochastique converge vers un optimum global. | ||
| + | * Actualisation = step-size * prediction error * feature value | ||
| + | |||
| + | Questions : | ||
| + | * Qu'est ce qu'on appelle une feature ? | ||
| + | |||
| + | |||
| + | |||