Differences
This shows you the differences between two versions of the page.
Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
memento-intrinsically-motivated-rl [2025/02/22 21:10] 47.128.110.36 old revision restored (2025/01/24 17:54) |
memento-intrinsically-motivated-rl [2025/04/07 17:24] (current) 47.128.44.21 old revision restored (2025/02/28 17:10) |
* Les modèles d'options : description probabiliste des effets de exécution de l'option. Cela donne la probabilité que l'option se termine sur un autre état que celui qui est prévu. | * Les modèles d'options : description probabiliste des effets de exécution de l'option. Cela donne la probabilité que l'option se termine sur un autre état que celui qui est prévu. |
* La méthode d'apprentissage intra-option : permet l'actualisation des politiques de plusieurs options pendant que l'agent interagi avec l'environnement. | * La méthode d'apprentissage intra-option : permet l'actualisation des politiques de plusieurs options pendant que l'agent interagi avec l'environnement. |
| |
| <note important>Pourquoi utiliser le QLearning et le MDP au lieu de l'un ou l'autre ?</note> |
| |
| L'expérience : |
| |
| L'agent à un œil et un bras, il peut activer plusieurs objets qui produisent de la lumière ou du son autour de lui. Certain objets ont des comportements différents en fonction de l'activation ou de la désactivation des autres objets. Les objets n'ont pas la même apparence en fonction de l'éclairage (activation ou non de la lumière). |
| |
| Lorsque l'agent interagi pour la première fois avec un objet, une structure permettant d'apprendre et de stocker l'option de l'objet est ajoutée. Au fur et à mesure que l'agent interagi avec l'environnement, les options sont mises à jour. |
| |
| |