Lien de la publication : http:liris.cnrs.fr/sasem/lib/exe/fetch.php?media=m1r2017:vieira2013tdgngoriginal.pdf
==== Les 3 étapes de l'algo : ====
=== Adaptation ===
A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées.
Dans les régions avec beaucoup d'activité -> ajout de noeuds.
Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)
Les noeuds bougent où statistiquement ils recevront une plus grande récompense.
Si une nouvelle représentation de l'état de l'environnement est perçue par l'agent
* sélection du noeud le plus proche
* sera la prochaine action de l'agent
=== Rafinnement ===
Pour l'ajout de noeuds, une valeur seuil est estimée (estimation des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur.
=== Comportement et apprentissage ===
Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b).
Si une région est activée pendant un long moment -> ajout d'un nouveau noeud.
==== Conclusion ====
* TD-GNG peu sensible au bruit
* Converge plus vite que TD-AVQ (sur les tests présentés dans la publication)
* Moins de mémoire utilisée que TD-AVQ
“In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms”
==== Pistes de recherche pour compléter les connaissances manquantes ====
* TD-AVQ
* Markov property
* Independance / Dependance of path (va probablement de paire avec le point précédent)