This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-learning-multi-agent-state-space-representations [2025/02/27 03:36] 47.128.62.74 old revision restored (2025/01/22 18:19) |
memento-learning-multi-agent-state-space-representations [2025/04/02 17:11] (current) 47.128.96.210 old revision restored (2025/02/12 17:36) |
||
---|---|---|---|
Line 3: | Line 3: | ||
==== Définitions ==== | ==== Définitions ==== | ||
- | | + | Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle. |
- | * CQ-Learning : Coordination QLearning | + | CQ-Learning : Coordination QLearning |
==== Quelques informations ==== | ==== Quelques informations ==== | ||
Line 25: | Line 25: | ||
==== CQ-Learning ==== | ==== CQ-Learning ==== | ||
- | |||
- | === Gérer la coordination === | ||
En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. | En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. | ||
Line 47: | Line 45: | ||
Sinon pas d' | Sinon pas d' | ||
- | |||
- | " | ||
- | |||
- | Il faut alors réduire l' | ||
- | |||
- | |||
- | === Gérer les collisions === | ||
- | |||
- | Comment gérer les collisions ? | ||
- | * Utiliser les connaissances rassemblées durant l' | ||
- | * Adapter l' | ||
- | |||
- | * Centrée sur agent -> car la représentation est relative à l' | ||
- | * Factored -> indique que les états sont représentés par l' | ||
- | |||
- | Question : | ||
- | * Je ne vois pas à quoi sert le coté factored et de cette histoire de valeurs aléatoires. A quoi s'en sert-on ? | ||
- | |||
- | Utilisation d'un réseau de neurones. | ||
- | |||
- | -> Entrainement en utilisant les actions préférées a1 et a2 des états s1 et s2. | ||
- | -> La localisation absolue est " | ||
- | |||
- | L' | ||
- | |||
- | Chaque agent utile un réseau de neurone pour généraliser ses états " | ||
- | |||
- | Pour chaque échantillon Δ(x) et Δ(y) sont déterminés et stockés avec une variable booléenne qui indique s'il y a eu collision ou non. | ||
- | En pratique le réseau peut servir à l' | ||
- | |||
- | |||