This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
realisation_env_grille_qlearning_sma [2025/02/28 17:07] 47.128.125.245 old revision restored (2025/02/13 18:45) |
realisation_env_grille_qlearning_sma [2025/04/20 02:02] (current) 18.222.207.81 old revision restored (2025/03/04 18:21) |
||
---|---|---|---|
Line 4: | Line 4: | ||
La grille fonctionne sur le même principe que la dernière fois, les cases vertes sont parcourables, | La grille fonctionne sur le même principe que la dernière fois, les cases vertes sont parcourables, | ||
+ | |||
+ | {{: | ||
Voir [[realisation_env_grille_qlearning | ici]] pour plus de détails. | Voir [[realisation_env_grille_qlearning | ici]] pour plus de détails. | ||
- | La grille est générée à parti d'un fichier texte. Il est possible de passer le nombre d' | + | La grille est générée à parti d'un fichier texte. Il est possible de passer le nombre d' |
Exemple de fichier : | Exemple de fichier : | ||
Line 28: | Line 30: | ||
L' | L' | ||
- | {{: | + | ==== Experience Sans collisions ==== |
- | ==== Experience ==== | + | Deux ILs tentent d' |
+ | Dans ce contexte l' | ||
- | Deux IL évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessus). Les deux agents | + | {{: |
+ | |||
+ | On peut voir que la somme des récompenses tend vers un minimum et que les agents | ||
+ | |||
+ | {{: | ||
- | {{: | ||
(Somme des récompenses des deux agents - l'un en violet, l' | (Somme des récompenses des deux agents - l'un en violet, l' | ||
+ | |||
+ | ==== Experience Tunnel To Goal ==== | ||
+ | |||
+ | Deux ILs évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessous). Les deux agents essaient d' | ||
+ | |||
+ | {{: | ||
La récompense de -10 sur la collision à l' | La récompense de -10 sur la collision à l' | ||
+ | {{: | ||
+ | (Somme des récompenses des deux agents - l'un en violet, l' |