Réseaux de neurones artificiels: la reconnaissance de visages
Nous allons maintenant voir la méthode de modélisation neuronale appliquée à l'identification de personnes, qui ne doit pas être confondue avec la détection d'un visage dans une image que nous détaillerons par la suite. Ici, le but étant "simplement" de déterminer le nom de la personne à partir d'une image de visage. Pour les besoins de l'expérience, une base de 33 personnes à été choisie, chacune d'elles ayant été photographiée dans 38 postures différentes (face jusqu'à profil, rotation de la tête, regard vers le bas, le haut, sourire, grimace, etc.). Un détourage manuel a ensuite été effectué pour ne conserver que le visage. Se pose alors une première question: doit on faire un détourage serré ne conservant que le visage à proprement parlé, ou doit on également conserver la chevelure et les oreilles ? L'avantage du premier cas et de permettre la reconnaissance d'une personne même avec une coupe de cheveux différente (En mathématiques, la différente est définie en théorie algébrique des nombres pour mesurer l'éventuel défaut de dualité d'une application définie à l'aide de...). Or on en a tous fait l'expérience, un passage chez le coiffeur (Le coiffeur travaille dans un salon de coiffure ou intervient à domicile afin de couper et entretenir les cheveux de ses clients.) quelque peu original, voire un précédent datant d'un peu, et on a plus de mal à se faire reconnaître ! La chevelure constitue donc une source importante d'informations discriminantes et la prise en compte de celle-ci améliore logiquement les résultats d'identification.

La première étape consiste donc à apprendre à modéliser les différentes personnes. L'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs culturelles,...) est depuis de nombreuses années au cœur des recherches en intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables...). L'idée de résoudre un problème uniquement à partir d'exemples ou d'actions expérimentées à partir d'un petit programme informatique (Un programme informatique est une liste d'ordres indiquant à un ordinateur ce qu'il doit faire. Il se présente sous la forme d'une ou plusieurs séquences d'instructions, comportant souvent des données de base, devant être...) est particulièrement séduisante. L'apprentissage utilisé dans notre application est dit de supervisé car il se fait à partir d'exemples dont la solution est connue (ici, le nom de la personne). Il est à différencier de l'apprentissage non supervisé où le système choisit lui même si la décision choisie est la bonne ou pas en fonction de son état interne (En France, ce nom désigne un médecin, un pharmacien ou un chirurgien-dentiste, à la fois en activité et en formation à l'hôpital ou en cabinet pendant une durée...) (par exemple un robot (Un robot est un dispositif mécatronique (alliant mécanique, électronique et informatique) accomplissant automatiquement soit des tâches qui sont...) qui s'arrête sur sa plate forme de rechargement verra sa durée de vie (La vie est le nom donné :) augmentée) ou d'une récompense (cas du dressage d'un fauve (Fauve se réfère au sens large aux Mammifères carnivores, et en particulier aux moyens à grands félins. Ce terme est également employé pour distinguer les grands félins — grand...) où l'utilisation de nourriture permet tous les exploits !).

De manière plus formelle, l'apprentissage à pour but l'extraction des informations pertinentes à l'identification. Et c'est justement le rôle de la couche cachée des réseaux diabolos utilisés. Pourquoi "diabolo" ? Tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) simplement à cause de leurs architectures (Architectures est une série documentaire proposée par Frédéric Campain et Richard Copans, diffusé sur Arte depuis 1995.): N pixels en entrée, N en sortie et entre les deux, un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de cellules plus réduit servant à compresser l'information utile. Cependant, l'utilisation d'exemples pour apprendre apporte le risque de ne pouvoir résoudre que des situations déjà rencontrées. Or il est nullement nécessaire d'avoir déjà vu un mouton (Le mouton (Ovis aries) est un mammifère domestique herbivore de la famille des bovidés, de la sous-famille des Caprinés et du genre Ovis. L'homme...) noir pour en reconnaître un le cas échéant. La généralisation (La généralisation est un procédé qui consiste à abstraire un ensemble de concepts ou d'objets en négligeant les détails de façon à ce qu'ils puissent être...) de l'apprentissage est donc une étape primordiale. Dans le cas de l'identification de visage, l'utilisation de plusieurs postures de référence reste insuffisante. On augmente alors les exemples en procédant à des transformations géométriques sur les images. Diverses translations et rotations sont alors effectuées et pour minimiser l'influence de la direction de l'éclairage, des symétries sont également utilisées. On obtient de cette manière non plus 38 exemples (postures différentes) par personnes, mais 38x37, ce qui permet au réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des informations. Par analogie avec un filet (un réseau est un « petit rets », c'est-à-dire un petit...) modélisateur de mieux extraire les informations pertinentes.

Pour résumer:


33 personnes différentes

Multipliées par...


38 postures

Multipliées par...


37 transformations
ici: originale, rotation +10°, symétrie, symétrie + rotation -10°, translation bas, translation haut


Nous donnent:
Une base de données (En informatique, une base de données (Abr. : « BD » ou « BDD ») est un lot d'informations stockées dans un dispositif informatique. Les technologies existantes permettent d'organiser et...) de 46 398 images

Le fait de disposer d'autant d'images couleurs de grandes tailles ne permet pas d'envisager un apprentissage dans des délais raisonnables. De plus, la couleur (La couleur est la perception subjective qu'a l'œil d'une ou plusieurs fréquences d'ondes lumineuses, avec une (ou des) amplitude(s) donnée(s).) comme la précision n'apporte rien à l'identification (il suffit de feuilleter certains magazines télé où de petites illustrations en 4 niveaux de gris permettent pourtant de reconnaître son actrice préférée !). Un rééchantillonnage des images est donc fait et une dimension (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une pièce sont sa longueur, sa largeur et sa profondeur/son épaisseur, ou...) de 15 par 15 semble suffire. Cela peut paraître trop peu (et l'est sans doute), mais il faut savoir que le nombre d'entrées du réseau est proportionnel au carré (Un carré est un polygone régulier à quatre côtés. Cela signifie que ses quatre côtés ont la même longueur et ses quatre...) du côté et que le nombre de connections entrées-sorties est alors plus important. De plus, un nombre plus élevé de cellules cachées devient nécessaires pour la compression.


Acteur connu en résolution 15x15 bilinéarisée

L'apprentissage à proprement parler peut ainsi commencer. L'algorithme consiste alors à faire converger le réseau de modélisation de manière à ce que la sortie soit la reproduction (La Reproduction. Eléments pour une théorie du système d'enseignement est un ouvrage de sociologie co-écrit par Pierre Bourdieu et Jean-Claude Passeron paru en...) la plus fidèle possible de l'entrée pour chaque exemple. La méthode commune repose sur un apprentissage par itérations où l'erreur est utilisée pour améliorer la convergence (Le terme de convergence est utilisé dans de nombreux domaines :). On parle alors d'algorithme de rétropropagation (La technique de rétropropagation du gradient (Backpropagation en anglais) est une méthode qui permet de calculer le gradient de l'erreur pour chaque neurone du réseau, de la...). D'autres méthodes sont cependant envisageables tel que l'utilisation d'algorithmes génétiques par exemples. Pour pouvoir tester les résultats, la base initiale est découpée en 3 parties. La première, la plus importante, sert à l'apprentissage. La seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui s'ajoute à quelque chose de nature identique. La seconde est...) permet de tester le réseau en cours d'apprentissage pour éviter un phénomène de sur-apprentissage qui spécialiserait le réseau uniquement sur les exemples connus sans généraliser. La dernière partie est uniquement utilisée pour le test final afin de disposer d'exemples nouveaux et indépendant de l'apprentissage. Les résultats obtenus au cours d'un stage (Un stage est le plus souvent une période de formation, d'apprentissage ou de perfectionnement qui dure quelques jours à plusieurs mois dans un lieu adapté :) réalisé au LISIF de l'université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa transmission (études supérieures). Aux...) Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin...) VI ont été inférieurs à 6% d'erreur pour une base de 33 personnes, ce qui montre la viabilité de la méthode.
Page générée en 0.166 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique