DokuWiki

<h2>Environnement grille et QLearning</h2>
<div class="level2">

</div>

<h3>Expérience</h3>
<div class="level3">

<p>
L'environnement est une grille modifiable à partir d'un fichier texte. Elle contient une case de départ, une case de fin et un agent (et bientôt la possibilité d'en mettre plus).
</p>

<p>
La grille (d'une grande beauté) est représentée comme ci dessous :
</p>

<p>
<a href="/lib/exe/fetch.php?media=envgrille.png" class="media mediafile mf_png" title="envgrille.png (3 KB)">envgrille.png</a>
</p>

<p>
les cases cadrillées sont des murs, l'espace coloré en vert est le labyrinthe, et le cercle bleu est l'agent.
</p>

<p>
Pour la suite je pars du principe que la case (0, 0) est celle qui se situe le plus en haut à gauche du terrain.
Sur cette grille l'agent commence en haut à gauche (case (1, 1)) et doit se rendre en bas à droite (case (5, 6)). Il évolue dans un environnement déterministe. A chaque mouvement il reçoit une récompense de -1, s'il atteint la case de fin, il obtient une récompense de 0.
</p>

<p>
Lors du test, l'agent à ε = 0, de façon à ce qu'il n'explore jamais (une récompense négative à chaque mouvement devrait le forcer à l'exploration de toute manière). <br/>

Le taux d'apprentissage est à 0.05. <br/>

Le taux de réduction gamma est de 0.90. <br/>

Le nombre d'itérations par épisode est de 5000. <br/>

</p>

</div>

<h3>Résultat</h3>
<div class="level3">

<p>
En lançant 500 épisodes de 5000 itérations (maximum, mais on voit que l'agent n'a jamais passé plus de 175 itérations sans trouver la sortie), j'obtiens ce graphique :
</p>

<p>
<a href="/lib/exe/fetch.php?media=rewardsgrille.png" class="media mediafile mf_png" title="rewardsgrille.png (32.1 KB)">rewardsgrille.png</a>
</p>

<p>
L'agent apprend petit à petit jusqu'à ce que ses qvaleurs convergent. La stratégie s'affine et devient intéressante à partir du 300ième épisode.
</p>

</div>

Enable Complex Tables Editor Height px Turn supplementary image paste support on

Edit summary: Minor changes

Please fill all the letters into the box to prove you're human. H P R V N Please keep this field empty:

DokuWiki

Site Tools

Page Tools