Apprentissage automatique - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

L'apprentissage automatique (machine-learning en anglais) est une discipline scientifique, qui est aussi l'un des champs d'étude de l'intelligence artificielle.

L'apprentissage automatique fait référence au développement, à l'analyse et à l'implémentation (Le mot implantation peut avoir plusieurs significations :) de méthodes qui permettent à une machine (au sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but...) large) d'évoluer grâce à un processus d'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus...), et ainsi de remplir des tâches qu'il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.

Des systèmes complexes peuvent être analysés, y compris pour des données associées à des valeurs symboliques (ex : non pas un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...), mais une probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un...) ou un intervalle de définition (Une définition est un discours qui dit ce qu'est une chose ou ce que signifie un nom. D'où la...) sur un attribut numérique) ou un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) de modalités possibles sur un attribut de valeur (numérique) ou catégoriel. L'analyse peut même concerner des données présentées sous forme de graphes ou d'arbres ou encore de courbes (par exemple courbe (En géométrie, le mot courbe, ou ligne courbe désigne certains sous-ensembles du...) d'évolution temporelle d'une mesure ; on parle alors de données continues, par opposition aux données discrètes associées à des attributs-valeurs classiques).

Le premier stade (Un stade (du grec ancien στ?διον stadion, du verbe...) de l'analyse est celui de la classification, qui vise à « étiqueter » chaque donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...) en l'associant à une classe. Différents systèmes d'apprentissage existent, listés ci-dessous.

Principes

Les algorithmes utilisés permettent - dans une certaine mesure - à un système piloté par ordinateurs (un robot (Un robot est un dispositif mécatronique (alliant mécanique, électronique et...) éventuellement), ou assisté par ordinateur (Un ordinateur est une machine dotée d'une unité de traitement lui permettant...) d'adapter ses analyses, et comportements en réponse en se fondant sur l'analyse de données empiriques provenant d'une base de donnée (Dans les technologies de l'information, une donnée est une description élémentaire,...) ou de capteurs (Un capteur est un dispositif qui transforme l'état d'une grandeur physique observée en une...).


La difficulté réside dans le fait que l'ensemble de tous les comportements possibles compte tenu de toutes les entrées possibles devient rapidement trop complexes à décrire dans les langages de programmation (La programmation dans le domaine informatique est l'ensemble des activités qui permettent...) disponibles, de sorte qu'on confie en quelque sorte à des programmes le soin d'apprendre de manière à auto-méliorer le système d'analyse ou de réponse (commande adaptative...), ce qui est une des formes que peut prendre l'intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens...)

Ces programmes, selon leur degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines...) de perfectionnement intègrent des capacités en probabilités et statistiques (La statistique est à la fois une science formelle, une méthode et une technique. Elle...), traitement de données (En informatique, le terme traitement de données renvoie à une série de processus qui...) et éventuellement d'analyse de données issues de capteurs, de reconnaissance (reconnaissance vocale, reconnaissance de forme, d'écriture, etc.), de data-mining et d'informatique (L´informatique - contraction d´information et automatique - est le domaine...) théorique.

Types d'apprentissage

Les algorithmes d'apprentissage peuvent se catégoriser selon le mode d'apprentissage qu'ils emploient :

  • L'apprentissage supervisé  : Si les classes sont prédéterminées et les exemples connus, le système apprend à classer selon un modèle de classement ; on parle alors d'apprentissage supervisé (ou d'analyse discriminante).
    Un expert (ou oracle) doit préalablement correctement étiqueter des exemples. L' « apprenant » peut alors trouver ou approximer la fonction qui permet d'affecter la bonne « étiquette » à ces exemples. Parfois il est préférable d'associer une donnée non pas à une classe unique, mais une probabilité d'appartenance à chacune des classes prédéterminées (on parle alors d'apprentissage supervisé probabiliste).
Ex : L'analyse discriminante (L’analyse factorielle discriminante ou analyse discriminante est une technique statistique...) linéaire ou les SVM sont des exemples typiques. Autre exemple : en fonction de points communs détectés avec les symptômes d'autres patients connus (les « exemples »), le système peut catégoriser de nouveaux patients au vu de leurs analyses médicales en risque estimé (probabilité) de développer telle ou telle maladie (La maladie est une altération des fonctions ou de la santé d'un organisme vivant, animal...).
  • L'apprentissage non-supervisé (ou classification automatique) : Quand le système ou l'opérateur (Le mot opérateur est employé dans les domaines :) ne disposent que d'exemples, mais non d'étiquettes, et que le nombre de classe et leur nature n'ont pas été prédéterminés, on parle d'apprentissage non supervisé ou clustering. Aucun expert n'est disponible ni requis. L'algorithme doit découvrir par lui-même la structure plus ou moins cachée des données. Le clustering est un algorithme d'apprentissage non supervisé.
    Le système doit ici -dans l'espace de description (la somme des données) - cibler les données selon leurs attributs disponibles, pour les classer en groupe homogènes d'exemples. La similarité est généralement calculée selon la fonction de distance entre paires d'exemples. C'est ensuite à l'opérateur d'associer ou déduire du sens pour chaque groupe et pour les patterns d' apparition des groupes ou groupes de groupes dans leur « espace ». Divers outils mathématiques (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide...) et logiciels peuvent l'aider. On parle aussi d'analyse des données (L’analyse des données est un sous domaine des statistiques qui se préoccupe de la...) en régression. Si l'approche est probabiliste (c'est à dire que chaque exemple au lieu d'être classé dans une seule classe est associé aux probabilité d'appartenir à chacune des classes), on parle alors de « soft clustering » (par opposition au « hard clustering »).
    Cette méthode est souvent source de sérendipité.
Ex : Un épidémiologiste pourrait par exemple dans un ensemble assez large de victimes de cancers du foie (Le foie est un organe abdominal impair et asymétrique, logé chez l'homme dans...) tenter de faire émerger des hypothèse explicatives, l'ordinateur pourrait différentier différents groupes, qu'on pourrait ensuite associer par exemple à leur provenance géographique, génétique (La génétique (du grec genno γεννώ = donner naissance) est...), à l'alcoolisme (L'alcoolisme est l'addiction à l'alcool ([[éthanol[[) contenu dans les boissons...) ou à l'exposition à un métal lourd (La notion d'élément-traces métalliques, ou ETM (anciennement métaux lourds), est actuellement...) ou à une toxine (Une toxine est une substance toxique pour un ou plusieurs organismes vivants. Le Petit Larousse de...) telle que l'aflatoxine (L'aflatoxine est une mycotoxine produite par des champignons proliférant sur des graines...).
  • L'apprentissage semi-supervisé  ; Effectué de manière probabiliste ou non, il vise à faire apparaitre la distribution sous-jacente des « exemples » dans leur espace de description. Il est mis en oeuvre quand des données (ou « étiquettes ») manquent... Le modèle doit utiliser des exemples non-étiquetés pouvant néanmoins renseigner.
Ex : En médecine (La médecine (du latin medicus, « qui guérit ») est la science et la...), il peut constituer une aide au diagnostic (Le diagnostic (du grec δι?γνωση, diágnosi, à partir de...) ou au choix des moyens les moins onéreux de tests de diagnostics.
  • L'apprentissage partiellement supervisé (probabiliste ou non) ; Quand l'étiquetage des données est partiel (Le mot partiel peut être employé comme :). C'est le cas quand un modèle énonce qu'une donnée n'appartient pas à une classe A, mais peut-être à une classe B ou C (A, B et C étant 3 maladies par exemple évoquées dans le cadre d'un diagnostic différentiel).
  • L'apprentissage par renforcement : l'algorithme apprend un comportement étant donné une observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les...). L'action de l'algorithme sur l'environnement (L'environnement est tout ce qui nous entoure. C'est l'ensemble des éléments naturels et...) produit une valeur de retour qui guide l'algorithme d'apprentissage.
Ex : L'algorithme de Q-learning est un exemple classique.
Page générée en 0.193 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique