Differences
This shows you the differences between two versions of the page.
| Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
realisation_env_mountainar_gym_qlearning [2025/11/11 11:11] 66.249.70.199 old revision restored (2025/09/01 06:03) |
realisation_env_mountainar_gym_qlearning [2025/11/13 02:36] (current) 216.73.216.15 old revision restored (2025/11/11 18:27) |
| La position de départ de la voiture est en -0.5 et sa vitesse est nulle. | La position de départ de la voiture est en -0.5 et sa vitesse est nulle. |
| |
| A chaque mouvement l'agent reçoit une récompense de -1. \\ | A chaque mouvement l'agent reçoit une récompense de -1 ou 0 s'il atteint sont objectif. \\ |
| |
| Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture. | Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j'essaie d'utiliser un QLearning en discrétisant la position de la voiture. |
| Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire. | Il n'y a aucun apprentissage, l'algorithme a l'air même moins efficace que l'aléatoire. |
| |
| J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, je ne sais pas, mais je ne vois pas quoi faire de plus que tout ce que j'ai déjà testé. | J'ai l'impression d'utiliser exactement le même QLearning que pour mon environnement de grille et pour lequel il y a un apprentissage. Peut être que je rate un détail stupide, mais je ne vois pas où est le problème. |
| |
| L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux. | L'environnement Pendulum me parait être le même que le MountainCar avec une dimension en plus et une action continue à choisir à chaque étape, je peux essayer de faire marcher le QLearning dessus, mais je ne vois pas pourquoi cela fonctionnerait mieux. |