DokuWiki

This is an old revision of the document!

Compte-rendu de l'état de l'art de la thèse de S. Mazac

Types d’apprentissage artificiel

Mémorisation par cœur (rote learning) : implémentation directe du savoir et des compétences, pas d’évolution.
Apprendre par instruction : transformation du savoir en représentation interne pour intégration au savoir préexistant.
Apprendre par l’exemple et par entrainement : à partir d’exemples positifs ou négatifs et expérience pratique.
Par analogie : extension d’un savoir d’un problème résolu vers un problème non résolu.
Par découverte : faire des observations, des expériences. Construire et tester des hypothèses et théories.

Caractéristiques de l’apprentissage pour les systèmes artificiels

Apprentissage hors ligne (offline): la période d’apprentissage est préalable et indépendante à l’éxécution du programme.
Apprentissage en ligne (online): le programme apprend au cours de son activité.
Apprentissage par lots (batch learning): technique intermédiaire (des phases d’apprentissages offline à intervalle de temps régulier durant l’activité).

Principaux types d’apprentissage

Apprentissage supervisé

le feedback spécifie exactement l’activité désirée de l’apprenant. L’objectif de l’apprentissage est de s’y conformer le plus possible. Permet l'apprentissage de concepts ciblés. Exemple : Réseaux de neurones et reconnaissance d'images

Apprentissage non supervisé

Pas de feedback explicite. L’objectif est de trouver les activités utiles et désirées sur la base du tâtonnement. Recherche de points commun dans les données contextuellement à l'objectif fixé. Souvent basé sur le sstatistiques. Exemple : ?

Apprentissage par récompense

le feedback spécifie seulement l’utilité du comportement par une valeur, l’objectif étant de la maximiser.

Apprentissage par récompense (renforcement)

Apprend un comportement par tatonnement. Recoit en entrée une perception, genère une action puis la valeur de cette action lui est passé. Exemple : TPs Mif24 bras qui avance / robot qui sort du labyrinthe.

Apprentissage par récompense (Stochastique)

Evaluer, selectionner, faire muter et recomencer juqu'à avoir une solution. Exemple : Algo génétique

L’apprentissage dans le cadre de l’AmI

Les techniques de classification

Efficace pour apprendre un concept ciblé dans un environnement maîtrisé. Pas de capacité d'abstraction -> pas utilisable pour un agent autonome. Exemple : Algorithme d'apprentissage supervisé basé sur des arbres de décisions

L’apprentissage par renforcement

Difficilement utilisable pour l'AmI, car :

discrétisation du temps est faite de manière arbitraire
compliqué d'interpréter le feedback venant de l'utilisateur.

Bilan : Besoin d'une approche plus globale ne se limitant pas à mettre en place des solutions pour des sous problèmes indépendants.

Exemple d’une approche globale

Triplet de capteurs (O, M, C) [Objet, Mouvement, Contextuel], Représentations définies sur un triplet (E, C, A) [Evenement, Condition, Action], Algo de classification -> chercher des motifs d'interactions à partir des données. Permet de construire de manière générale la régularité puis d'affiner petit à petit.

Les systèmes multi-agents

Système complexe : système qui a un effet sur son environnement et ses propres composantes.

Application des SMA :

alternative à la résolution de problèmes centralisés
la simulation (biologie, sociologie...)
paradigme de programmation

Façons d'envisager l'apprentissage décentralisé des SMA :

Un système peut être améliorer en dotant ses agents de capacités d'apprentissage qui leur sont propre.
Les agents peuvent apprendre de manière distribué et interactive -> c'est le système qui apprend par l'évolution des agents.

Catégories d'apprentissage des SMA :

apprentissage centralisé : les agents apprennent seul.
apprentissage décentralisé : les agents sont impliqués dans la même activé d'apprentissage

L'apprentissage centralisé et décentralisé peuvent cohabiter.

Attribution des récompenses

Difficulté de donner des récompenses, comment savoir quels agents doivent avoir le feedback lors d'un changement au global ? (CAP : Credit Assignement Problem)

Décomposition du problème en deux sous problèmes :

CAP inter-agent : Rétribution des agents en fonction d'un changement de performance au niveau global.
CAP intra-agent : Rétribution des inférences internes ou décisions d’un agent en fonction d’une action externe effectuée.

Une solution plus simple consiste à diviser la récompense globale entre tous les agents du système, mais ceci ne marche pas correctement dans les cas plus complexe qui nécessitent un feedback plus précis.

Caractéristiques de l’apprentissage décentralisé

Apprendre un comportement collectif total ciblé est compliqué. Il est possible de simplifier le problème en isolant les comportements appris de certains agents, en réduisant l'hétérogénéité des comportements ou en réduisant la complexité des capacité des agents. Réduction de la complexité -> utiliser l'apprentissage par niveau (layered learning). Il faut alors décomposer automatiquement le problème et assurer une coordination des sous-comportements.

Approches neuro-inspirée

Approche connexionniste : modélise les phénomènes mentaux ou comportementaux comme des processus émergents de réseaux d’unités simples interconnectées.

L'IA actuelle (systèmes experts, solveurs logiques, ...) exécute des algos, alors que l'intelligence “réelle” consiste à comprendre. L'ordinateur à un fonctionnement éloigné de celui du cerveau. La meilleure solution pour reproduire un système intelligent tel qu'un cerveau n'est donc pas forcément d'imiter la construction de ce dernier.

Représentation invariante : régularité constante dans l'exécution d'un tâche.

Les approches connexionnistes dans le cadre de l’AmI

Le système ACHE (Adaptive Control of Home Environments) utilise les réseaux de neurone afin de gérer les dispositifs d'une maison. Le système se base sur une représentation d'état et l'occupation des zones pour prédire l'état futur de la maison. Il agit ensuite en conséquence pour modifier l'environnement.

Problème de ce système : La connaissance acquise par les réseaux de neurones ne peut être utilisée que pour l'objectif défini. Si l'objectif change, le système doit tout réapprendre (Exemple : Si l'on souhaite maximiser la consommation d'énergie au lieu de la minimiser).