This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
memento-learning-multi-agent-state-space-representations [2025/04/18 19:00] 3.143.18.39 old revision restored (2025/03/01 18:36) |
memento-learning-multi-agent-state-space-representations [2025/05/20 23:50] (current) 166.108.193.186 old revision restored (2025/05/14 04:24) |
||
---|---|---|---|
Line 22: | Line 22: | ||
==== CQ-Learning ==== | ==== CQ-Learning ==== | ||
- | En partant du principe que les agents ont une politique optimale ainsi qu'une récompense associée à chaque tuple <état, action>. | ||
- | Les agents ont deux ensembles d' | ||
- | L' | ||
- | * L' | ||
- | - Marquage de l' | ||
- | - Recherche de la cause du changement | ||
- | - Paire <état, action> marquée comme " | ||
- | - Ajout de l' | ||
- | - Les <états, action> qui n'ont pas provoqués la collision sont marqué comme " | ||
- | | ||