This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-learning-multi-agent-state-space-representations [2025/12/12 12:17] 47.128.124.35 old revision restored (2025/04/15 03:11) |
memento-learning-multi-agent-state-space-representations [2026/01/05 01:40] (current) 189.188.242.245 old revision restored (2025/09/24 23:39) |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | =====Learning multi-agent state space representations===== | + | ====Learning multi-agent state space representations==== |
| - | + | ||
| - | ==== Définitions ==== | + | |
| - | + | ||
| - | * Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle. | + | |
| - | * CQ-Learning : Coordination QLearning | + | |
| - | ==== Quelques informations ==== | + | |
| - | + | ||
| - | Markov game -> Système multi-agent avec plusieurs sets d' | + | |
| - | + | ||
| - | Une variante consiste à donner une récompense commune aux agents. | + | |
| - | + | ||
| - | + | ||
| - | Comment apprendre le bon moment auquel doivent se coordonnés les agents ? Quelques ressources dispo : | + | |
| - | * Kok & Vlassis, Utile coordination : Learning indepedenies among cooperative agents. | + | |
| - | * Spaan & Melo IDMG | + | |
| - | + | ||
| - | Détails sur l'IDMG : | + | |
| - | * Interaction Driven Markov Game | + | |
| - | * Les agents peuvent connaitre la position des autres par la communication ou en les détectant avec les capteurs | + | |
| - | * Plus de détails sur l' | + | |
| - | + | ||
| - | Learning Coordination States : | + | |
| - | * Identification des états dans lequel un agent devrait prendre en compte les autres agents quand il choisi une action et qu'il y a besoin de coordination sur celle-ci avec un autre agent. | + | |
| - | + | ||
| - | ==== CQ-Learning ==== | + | |
| - | + | ||
| - | En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action> | + | |
| - | + | ||
| - | Les agents ont deux ensembles d' | + | |
| - | + | ||
| - | L' | + | |
| - | * L' | + | |
| - | - Marquage de l' | + | |
| - | - Recherche de la cause du changement | + | |
| - | - Paire <état, action> marquée comme " | + | |
| - | - Ajout de l' | + | |
| - | - Les <états, action> qui n'ont pas provoqués la collision sont marqué comme " | + | |
| - | | + | |
| - | + | ||
| - | A chaque fois qu'un état est marqué, l' | + | |
| - | Si c'est le cas l' | + | |
| - | + | ||
| - | {{: | + | |
| - | + | ||
| - | Sinon pas d' | + | |
| - | + | ||
| - | + | ||
| - | + | ||