Hotfix release available: 2025-05-14b "Librarian". upgrade now! [56.2] (what's this?)

Hotfix release available: 2025-05-14a "Librarian". upgrade now! [56.1] (what's this?)

New release available: 2025-05-14 "Librarian". upgrade now! [56] (what's this?)

Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)

Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)

New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)

Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)

Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)

New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)

Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)

Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)

New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)

New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)

New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)

Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)

memento-value-function-approximation

Differences

This shows you the differences between two versions of the page.

--- memento-value-function-approximation [2025/09/13 09:32]
66.249.68.36 old revision restored (2025/08/26 21:49)
+++ memento-value-function-approximation [2025/09/17 07:29] (current)
20.171.207.36 old revision restored (2025/08/31 03:58)
@@ Line 8: / Line 8: @@
    * Fourier
    * ...
-Définitions :
-   * Off-policy : Actualisation des valeurs à partir de l'état suivant et de l'action "gloutonne".
-   * On-policy : Actualisation des valeurs à partir de l'état suivant et de l'action de la politique courante.
 ===Algorithme du gradient===
@@ Line 56: / Line 52: @@
    * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
    * Utilise une variante de la descente de gradient stochastique
+   *

memento-value-function-approximation.1757748766.txt.gz · Last modified: 2025/09/13 09:32 by 66.249.68.36

DokuWiki