memento-value-function-approximation

Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent.

Solution : Estimer la fonction de valeur avec une fonction approximation

Il existe plusieurs approximateurs :

Définitions :

Off-policy : Actualisation des valeurs à partir de l'état suivant et de l'action “gloutonne”.
On-policy : Actualisation des valeurs à partir de l'état suivant et l'action de la politique courante.

Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).

Le gradient de J(w) est défini sous forme matricielle, voir diapo 11

Permet de trouver un minimum local J(w)

Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur.

Questions :

Ranger dans le vector les n valeurs du même état.

(Linear Value Function Approximation)

Questions :

Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.

Expérience donnée sous la forme de pair <Etat, Valeur>. (Voir diapo 37 pour plus de détails)

DQN utilisent l'experience replay.
Choix d'action en fonction d'une politique gloutonne.
Sauvegarde les transitions en replay memomry
Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
Utilise une variante de la descente de gradient stochastique