Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent.

Solution : Estimer la fonction de valeur avec une fonction approximation

Il existe plusieurs approximateurs :
   * Réseau de neurones
   * Arbre de décision
   * Fourier
   * ...

===Algorithme du gradient===

Avec J(w), une fonction dérivable de paramètre w (w étant un vector contenant toutes les valeurs des états).

Le gradient de J(w) est défini sous forme matricielle, [[http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/FA.pdf | voir diapo 11]]

Permet de trouver un minimum local J(w)

Objectif : Trouver le paramètre w qui minimise le carré de l'erreur entre la valeur approximée et la vrai valeur.


Questions : 
   * Que représente Δw (une valeur, un vector, ...), et à quoi s'en sert-on ?

===Représentation d'un état dans un vector===

Ranger dans le vector les n valeurs du même état.

===Fonction approximation de valeur linéaire===
(Linear Value Function Approximation)

   * La descente de gradient stochastique converge vers un optimum global.
   * Actualisation = step-size * prediction error * feature value

Questions : 
   * Qu'est ce qu'on appelle une feature ?

===Least Squares Prediction===

Algorithme qui trouve le paramètre w qui minimise la somme des carrés des erreurs entre la fonction approximation et la la valeur cible.

===Stochastic Gradient Descent with Experience Replay===

Expérience donnée sous la forme de pair <Etat, Valeur>.
(Voir diapo 37 pour plus de détails)

===Experience Replay in Deep Q-Network===

   * DQN utilisent l'experience replay.
   * Choix d'action en fonction d'une politique gloutonne.
   * Sauvegarde les transitions en replay memomry
   * Optimise le MSE (mean squarred error) entre les cibles du QNetwork et du QLearning
   * Utilise une variante de la descente de gradient stochastique