This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
realisation_env_grille_qlearning_sma [2025/11/11 11:04] 66.249.70.199 old revision restored (2025/08/26 12:41) |
realisation_env_grille_qlearning_sma [2025/11/13 00:49] (current) 103.228.201.100 old revision restored (2025/07/03 18:09) |
||
|---|---|---|---|
| Line 30: | Line 30: | ||
| {{: | {{: | ||
| - | ==== Experience | + | ==== Experience ==== |
| Deux IL évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessus). Les deux agents essaient d' | Deux IL évoluent sur une grille de forme Tunnel To Goal avec un QLearning (grille ci-dessus). Les deux agents essaient d' | ||
| Line 39: | Line 39: | ||
| La récompense de -10 sur la collision à l' | La récompense de -10 sur la collision à l' | ||
| - | ==== Experience Sans collisions ==== | ||
| - | |||
| - | Même test en prenant une grille dans laquelle il n'y a pas de collisions. | ||
| - | |||
| - | {{: | ||
| - | |||
| - | On peut voir que la somme des récompenses tend vers un minimum et que les agents ne se perturbent pas. | ||
| - | |||
| - | {{: | ||
| - | (Somme des récompenses des deux agents - l'un en violet, l' | ||