Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent.

Solution : Estimer la fonction de valeur avec une fonction approximation

Il existe plusieurs approximateurs :