Differences

This shows you the differences between two versions of the page.

--- realisation_env_mountainar_gym_qlearning [2025/11/11 11:11]
66.249.70.199 old revision restored (2025/09/01 06:03)
+++ realisation_env_mountainar_gym_qlearning [2025/11/13 02:36] (current)
216.73.216.15 old revision restored (2025/11/11 18:27)
@@ Line 11: / Line 11: @@
 La position de départ de la voiture est en -0.5 et sa vitesse est nulle.
-A chaque mouvement l'agent reçoit une récompense de -1. \\
+A chaque mouvement l'agent reçoit une récompense de -1 ou 0 s'il atteint sont objectif. \\
 Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture.
@@ Line 38: / Line 38: @@
 Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire.
-J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, je ne sais pas, mais je ne vois pas quoi faire de plus que tout ce que j'ai déjà testé.
+J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, mais je ne vois pas où est le problème.
 L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux.

DokuWiki

Site Tools

Differences

Page Tools