Table of Contents

Mémento TD-GNG

Les 3 étapes de l'algo :

Adaptation

A chaque itération les nodes peuvent être connectées, bougées, ajoutées ou supprimées. Dans les régions avec beaucoup d'activité -> ajout de noeuds. Région avec peu d'activité -> pas de suppression de noeuds (pour ne pas perdre d'information)

Les noeuds bougent où statistiquement ils recevront une plus grande récompense.

Si une nouvelle représentation de l'état de l'environnement est perçue par l'agent

Rafinnement

Pour l'ajout de noeuds, une valeur seuil est estimée (estimation des valeurs max des actions possible). Risque de blocage s'il n'y a pas assez de noeuds. Le blocage peut être évité si l'on crée de nouveaux neouds avant la saturation de la fonction action-valeur.

Comportement et apprentissage

Les tuples actions-valeurs sont les mêmes pour tous les états d'un noeud. Attention à la répartition des noeuds qui peuvent rendre impossible la résolution de certain problèmes (cf figure 1a/1b).

Si une région est activée pendant un long moment -> ajout d'un nouveau noeud.

Conclusion

“In all experiments the TD-GNG algorithm has shown to be capable of reducing the dimensionality of the problem, increasing the generalization, and reducing the convergence time of RL algorithms”

Pistes de recherche pour compléter les connaissances manquantes