This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
memento-learning-multi-agent-state-space-representations [2025/11/06 03:16] 138.255.144.234 old revision restored (2025/08/19 11:42) |
memento-learning-multi-agent-state-space-representations [2025/11/12 09:51] (current) 189.241.220.38 old revision restored (2025/07/25 19:44) |
||
|---|---|---|---|
| Line 3: | Line 3: | ||
| ==== Définitions ==== | ==== Définitions ==== | ||
| - | Feed forward neural network : Réseau de neurone dans lequel il n'y a pas de boucle. | + | |
| - | CQ-Learning : Coordination QLearning | + | * CQ-Learning : Coordination QLearning |
| ==== Quelques informations ==== | ==== Quelques informations ==== | ||
| Line 25: | Line 25: | ||
| ==== CQ-Learning ==== | ==== CQ-Learning ==== | ||
| + | |||
| + | === Gérer la coordination === | ||
| En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. | En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. | ||
| Line 45: | Line 47: | ||
| Sinon pas d' | Sinon pas d' | ||
| + | |||
| + | " | ||
| + | |||
| + | Il faut alors réduire l' | ||
| + | |||
| + | |||
| + | === Gérer les collisions === | ||
| + | |||
| + | Comment gérer les collisions ? | ||
| + | * Utiliser les connaissances rassemblées durant l' | ||
| + | * Adapter l' | ||
| + | |||
| + | * Centrée sur agent -> car la représentation est relative à l' | ||
| + | * Factored -> indique que les états sont représentés par l' | ||
| + | |||
| + | Question : | ||
| + | * Je ne vois pas à quoi sert le coté factored et de cette histoire de valeurs aléatoires. A quoi s'en sert-on ? | ||
| + | |||
| + | Utilisation d'un réseau de neurones. | ||
| + | |||
| + | -> Entrainement en utilisant les actions préférées a1 et a2 des états s1 et s2. | ||
| + | -> La localisation absolue est " | ||
| + | |||
| + | L' | ||
| + | |||
| + | Chaque agent utilise un réseau de neurone pour généraliser ses états " | ||
| + | |||
| + | Pour chaque échantillon, | ||
| + | En pratique le réseau peut servir à l' | ||
| + | |||
| + | |||