Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent. Solution : Estimer la fonction de valeur avec une fonction approximation Il existe plusieurs approximateurs : * Réseau de neurones * Arbre de décision * Fourier * ...