You've loaded an old revision of the document! If you save it, you will create a new version with this data.
Problème : Lorsque le MDP devient trop important (trop d'états, trop d'actions), l'apprentissage devient lent.
Solution : Estimer la fonction de valeur avec une fonction approximation
Il existe plusieurs approximateurs :