This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
realisation_env_mountainar_gym_qlearning [2025/02/15 18:38] 47.128.57.14 old revision restored (2025/02/12 17:22) |
realisation_env_mountainar_gym_qlearning [2025/04/18 10:20] (current) 47.128.111.160 old revision restored (2025/03/04 18:10) |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ===== blabla | + | ===== MountainCar Gym (Qlearning) |
+ | |||
+ | ==== Expérience ==== | ||
+ | |||
+ | Le Moutaincar se présente comme une voiture peu puissante se situant au centre d'une vallée et devant se servir de la colline à sa gauche pour prendre de l' | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Pour se diriger, la voiture peut aller effectuer trois actions : aller à gauche, à droite, ne rien faire. \\ | ||
+ | La vitesse de la voiture va de [-0.07; 0.07], et sa position de [-1.2; 0.6]. \\ | ||
+ | La position de départ de la voiture est en -0.5 et sa vitesse est nulle. | ||
+ | |||
+ | A chaque mouvement l' | ||
+ | |||
+ | Le but est donc de faire apprendre à la voiture comment grimper en haut de la colline le plus rapidement possible. Pour cela j' | ||
+ | |||
+ | D' | ||
+ | (page 31) \\ | ||
+ | il faudrait au moins 10 000 états pour obtenir une politique optimale sur le MountainCar. Le but de la discrétisation suivante est donc de s'en approcher le plus possible (parce que je veux une politique optimale en attendant le moins de temps possible). | ||
+ | |||
+ | Le problème de tout discrétiser de la même manière en arrondissant au centième ou millième par exemple, est que dans le premier cas le nombre d' | ||
+ | |||
+ | La discrétisation se fait en deux fois, la position puis la vitesse. La position est arrondie au " | ||
+ | De plus la vitesse est arrondie au centième et créée donc 15 états supplémentaires (de -0.07 -> 0 = 7, [0.00] = 1, 0 -> 0.07 = 7). \\ | ||
+ | Finalement, il existe donc 950 * 15 = 14 250 états en discrétisant de cette manière. \\ | ||
+ | |||
+ | Concernant l' | ||
+ | |||
+ | Voila donc le résultat : | ||
+ | |||
+ | {{: | ||
+ | |||
+ | (x = nombre d' | ||
+ | |||
+ | ==== Problème / Avis ==== | ||
+ | |||
+ | |||
+ | Il n'y a aucun apprentissage, | ||
+ | |||
+ | J'ai l' | ||
+ | |||
+ | L' | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ |