Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent.

Solution : Estimer la fonction de valeur avec une fonction approximation

Il existe plusieurs approximateurs :

Définitions :

Algorithme du gradient

Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).

Le gradient de J(w) est défini sous forme matricielle, voir diapo 11

Permet de trouver un minimum local J(w)

Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur.

Questions :

Représentation d'un état dans un vector

Ranger dans le vector les n valeurs du même état.

Fonction approximation de valeur linéaire

(Linear Value Function Approximation)

Questions :

Least Squares Prediction

Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.

Stochastic Gradient Descent with Experience Replay

Expérience donnée sous la forme de pair <Etat, Valeur>. (Voir diapo 37 pour plus de détails)

Experience Replay in Deep Q-Network