This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-learning-multi-agent-state-space-representations [2025/02/14 19:04] 47.128.61.160 old revision restored (2025/01/15 17:38) |
memento-learning-multi-agent-state-space-representations [2025/04/02 17:11] (current) 47.128.96.210 old revision restored (2025/02/12 17:36) |
||
---|---|---|---|
Line 1: | Line 1: | ||
=====Learning multi-agent state space representations===== | =====Learning multi-agent state space representations===== | ||
+ | ==== Définitions ==== | ||
+ | |||
+ | Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle. | ||
+ | CQ-Learning : Coordination QLearning | ||
==== Quelques informations ==== | ==== Quelques informations ==== | ||
- | Markov game -> Système multi-agent avec plusieurs | + | Markov game -> Système multi-agent avec plusieurs |
Une variante consiste à donner une récompense commune aux agents. | Une variante consiste à donner une récompense commune aux agents. | ||
Line 22: | Line 26: | ||
==== CQ-Learning ==== | ==== CQ-Learning ==== | ||
+ | En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. | ||
+ | |||
+ | Les agents ont deux ensembles d' | ||
+ | |||
+ | L' | ||
+ | * L' | ||
+ | - Marquage de l' | ||
+ | - Recherche de la cause du changement | ||
+ | - Paire <état, action> marquée comme " | ||
+ | - Ajout de l' | ||
+ | - Les <états, action> qui n'ont pas provoqués la collision sont marqué comme " | ||
+ | | ||
+ | |||
+ | A chaque fois qu'un état est marqué, l' | ||
+ | Si c'est le cas l' | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Sinon pas d' | ||