Site Tools


Hotfix release available: 2024-02-06b "Kaos". upgrade now! [55.2] (what's this?)
Hotfix release available: 2024-02-06a "Kaos". upgrade now! [55.1] (what's this?)
New release available: 2024-02-06 "Kaos". upgrade now! [55] (what's this?)
Hotfix release available: 2023-04-04b "Jack Jackrum". upgrade now! [54.2] (what's this?)
Hotfix release available: 2023-04-04a "Jack Jackrum". upgrade now! [54.1] (what's this?)
New release available: 2023-04-04 "Jack Jackrum". upgrade now! [54] (what's this?)
Hotfix release available: 2022-07-31b "Igor". upgrade now! [53.1] (what's this?)
Hotfix release available: 2022-07-31a "Igor". upgrade now! [53] (what's this?)
New release available: 2022-07-31 "Igor". upgrade now! [52.2] (what's this?)
New release candidate 2 available: rc2022-06-26 "Igor". upgrade now! [52.1] (what's this?)
New release candidate available: 2022-06-26 "Igor". upgrade now! [52] (what's this?)
Hotfix release available: 2020-07-29a "Hogfather". upgrade now! [51.4] (what's this?)
memento-context-sensitive-reward-shaping-for-sparse-inter-action-multi-agent-systems

Context-Sensitive Reward Shaping for Sparse Inter-action Multi-Agent Systems

Définition

  • MARL = Multiagent reinforcement learning.
  • FQCLearning : Future Coordination QLearning.
  • DEC-SIMDP : Decentralized Sparse Interaction MDP.
  • LoC : Learning of Coordination.
  • FCQLearning : Future Coordination QLearning.

Single agent RL

Mise à jour des approximation de QValeur :

[Screenshot formule]

Reward shaping in SARL

L'apprentissage en MAS ajoute quelques problèmes comparé au SAS. Voir autre mémento pour plus de détails.

Le “reward shaping” peut être offre la possibilité d'ajouter un domaine de connaissance dans le processus d'apprentissage pour accélerer la convergence. Voir Devlin & Kudenko dans les références. Le “potential-based reward shaping” dans un MAS ne change pas l'équilibre de Nash du jeu stochastique auquel l'agent joue.

Potentiel de l'état courant d'un agent :

[Screenshots formule]

CurrentStepInPlan étant la position de l'agent dans le plan.

Interactions rares

Un agent k est indépendant d'un agent l si :

  • La probabilité de transition pour un état local de l'agent k ne dépend pas du <état, action> de l'agent l.
  • Il est possible de décomposer la fonction récompense tel que le signal de récompense des deux agents soit indépendant des <état, action> de l'un et de l'autre.

Des agents sont dans le même ensemble d'agent K si :

  • L'agent l appartient à l'ensemble K et l'agent k dépend de l'agent l.
  • L'agent k appartient à l'ensemble K et l'agent k dépend de l'agent l dans l'état s.

Zone d'interaction :

  • zone d'états qui sont les uns à coté des autres (il est possible de passer de l'un à l'autre et réciproquement).
  • zone accessible à plusieurs agents.

DEC-SIMDP :

[Un screebnshot vaut mieux qu'un long discours]

LoC :

  • Augmentation de l'ensemble d'actions de chaque agent avec une action de pseudo coordination.
    • Sert d'étape de perception (Par exemple partager l'emplacement d'un agent).
    • Servira à savoir si c'est OK d'ignorer les autres ou non.
  • Les pénalités de coordination sont supérieures au coup d'utilisation de l'action de pseudo coordination.

FCQLearning

Pour plus de détails sur le CQLearning voir ce memento.

A quoi ca sert ?

  • Détecter l'influence des autres agents en avance.

Lidée de FCQLearning est que les agents apprennent dans quel état local ils vont augmenter leur information d'état pour ajouter de l'information venant des autres agents et utiliser un système d'état plus global basé sur les tests statistiques sur les signaux de récompenses.

Comme ca, les agents apprennent seulement en utilisant les états locaux et un nombre limité d'états augmentés dans lesquels des tests statistiques indiquent que l'observation va être bénéfique.

La détection du besoin de l'augmentation d'un état se fait avec un test statistique de Friedmann (qui sert à déterminer si la différence entre deux états locaux est significative ou non).

Scénario :

  • L'agent 1 collecte des échantillons d'information des états locaus de l'agent 2.
  • Il ne les utilise pas pour son propre apprentissage.
  • Teste des échantillons avec Friedmann.
  • Si les échantillons sont significativement différents alors :
    • Augmentation de l'état local de l'agent 1 avec informations l'agent 2.
    • L'agent 1 selectionnera ses actions basées sur les informations de l'état augmenté.
  • Sinon l'agent 1 utilisera ses propres informations d'état local.

Deux moyens d emettre à jour les Qvaleurs :

  1. Si l'état est augmenté :
    • [Screenshot]
  2. Si l'état est local : QLearning de la première partie “Single agent RL” :
    • [Screenshot]

pour chaque état augmenté, une valeur est gardée en mémoire, indiquant à quel point est certain l'algorithme que cet état augmenté est bénéfique à la coordination. Si l'état augmenté d'un état local est visité, la valeur de confiance est augmentée. Sinon, toutes les valeurs de confiance de tous les états augmentés d'un état local sont diminuées.

La réduction est plus petite que l'augmentation pour la valeur de confiance pour donner un taux de marge d'erreur à l'algorithme.

Context-sensitive reward shaping

Il n'est pas possible de prendre en compte les objectifs et sous-objectifs des agents dans une seule fonction “de façonnage” (shaping). Il faut donc en avoir plusieurs qui dépendent du contexte de l'agent. Le contexte dépendrait du sous-objectif que l'agent essaie d'accomplir.

La fonction est choisie par rapport à l'individualité de l'agent (seul ou coordination).

Articles connexes

Devlin, S. & Kudenko, D. (In Press), Plan-based reward shaping for multi-agent reinforcement learning, in ‘Knowledge Engineering Review’

memento-context-sensitive-reward-shaping-for-sparse-inter-action-multi-agent-systems.txt · Last modified: 2024/10/26 13:30 by 47.128.22.206