Réseaux de neurones artificiels: la reconnaissance de visages
Publié par Publication le 19/12/2004 à 20:13
Nous venons de voir comment identifier un visage à partir de son imagette mais qu'en est il de la détection du visage en tant que tel dans une image globale ? Cette fois ci, le but va être de reconnaître non plus un visage en particulier parmi d'autres mais de trouver un ou plusieurs visages dans une image. Ce qui parait une fois de plus comme évident pour nous devient extrêmement complexe d'un point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) algorithmique (L'algorithmique est l’ensemble des règles et des techniques qui sont impliquées dans la définition et la conception d'algorithmes, c'est à dire de processus...). Pensez qu'un visage peut avoir des orientations, mais également des dimensions très différentes, sans parler une fois de plus des conditions d'éclairage ni de sa position dans l'image.

Comme précédemment, l'idée la plus simple, celle des k-ppv, serait de parcourir l'image avec un cadre puis de comparer chaque imagette extraite avec une série de visages types et de définir un visage comme étant tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) résultat dont la distance à l'une des images de la base soit suffisamment faible. Mais en considérant des tailles, des orientations, rotations et des éclairage différents il faudrait pouvoir comparer chaque imagette extraite à des centaines de références !! Si l'on rajoute les expressions faciales (sourires, grimaces, etc.), on ne s'en sort plus. Partant de ce constat, d'autres méthodes cherchent à ne trouver que des éléments stables et relativement descriptifs. Les yeux paraissent ainsi suffisamment communs et discriminant (En mathématiques, le discriminant est une notion algébrique. Il est utilisé pour résoudre des équations du second degré. Il se généralise pour des polynômes de...) de par leurs formes ou leur différence de contraste avec les pixels voisins. On notera ainsi l'utilisation bien connue de templates, sortes de modèles applicables à la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la...) des ces éléments dans l'image, soit brute soit transformée (image contour, etc.).

L'avantage du réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des informations. Par analogie avec un filet (un réseau est un « petit...) de neurones de modélisation réside dans la compression d'une multitude d'images globales de visages en un réseau unique. Il devient alors possible de rassembler une multitude de cas et ne faire qu'un unique test sur chaque imagette. En insérant des zooms différents lors de l'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences,...), il ne devient alors plus nécessaire de tester chaque dimension (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une pièce sont sa longueur, sa largeur et sa profondeur/son épaisseur, ou bien son...) potentielle. Le parcours d'extraction en multi-dimension reste cependant vrai, rien n'interdisant la présence d'un visage occupant toute l'image ou uniquement un dixième dans le coin inférieur droit ... De même qu'avec l'identification, le test s'effectue donc sur une différence entre l'entrée et la sortie du réseau dans laquelle l'imagette extraite s'est propagée. Dans le cas d'un visage, l'image de sortie sera proche de l'image d'entrée alors que dans le cas contraire, un mélange (Un mélange est une association de deux ou plusieurs substances solides, liquides ou gazeuses qui n'interagissent pas chimiquement. Le résultat de l'opération est une...) entre entrée et sotie sera obtenu.


Image de recherche - Image de diffusion - Image résultat

L'image de diffusion correspond à l'affichage (L' affichage désigne l'application d'une surface de papier script dans un lieu public(et non du foyer)sur un support destiné à son émission, externe ou interne, ce...) de l'erreur pour chaque position de la recherche. Plus le point est sombre, moins l'erreur est importante. On constate donc bien une "tache de visage potentiel" au bon endroit. L'image résultat est alors la superposition (En mécanique quantique, le principe de superposition stipule qu'un même état quantique peut possèder plusieurs valeurs pour une certaine quantité observable (spin, position, quantité de mouvement etc.)) de ce que "voit" notre réseau à l'endroit le plus probable. Mais la détection d'un visage ou d'une forme en général pose de nombreuses autres questions. Comment arrive t-on à reconnaître immédiatement une voiture à moitié cachée derrière un arbre (Un arbre est une plante terrestre capable de se développer par elle-même en hauteur, en général au delà de sept mètres. Les arbres acquièrent une structure rigide...) ? Le cas de l'occultation (Une occultation est un phénomène de recouvrement apparent d'un élément par un autre.) pose ainsi de réelles difficultés pour la reconnaissance des formes, tracking d'objets et autres applications de vision. Sûrement y a t-il une multitude de modélisation pour un même objet (De manière générale, le mot objet (du latin objectum, 1361) désigne une entité définie dans un espace à trois dimensions, qui a une fonction précise, et qui...) et non une unique représentation globale. Pour le visage, la présence d'un œil ou d'une bouche (La bouche (encore dénommée cavité buccale ou cavité orale) est l'ouverture par laquelle la nourriture d'un animal entre dans son corps. Le mot gueule s'utilise aussi, mais avec un...) suffit alors à détecter la présence d'une personne et d'en reconstituer mentalement une représentation au moins dans un but de positionnement (On peut définir le positionnement comme un choix stratégique qui cherche à donner à une offre (produit, marque ou enseigne) une position crédible,...).


Image partiellement occultée - Image de diffusion - Image résultat

Dans le cas de ce "trou" sur le visage, l'image de diffusion est moins discriminante et la position réelle ressort moins qu'auparavant. En outre le visage donné par la sortie du réseau est légèrement différent du précédent. Cependant, en regardant le détail de la différence entre l'entrée et cette sortie, on retrouve la zone dégradée, le reste de l'image ayant une excellente correspondance (La correspondance est un échange de courrier généralement prolongé sur une longue période. Le terme désigne des échanges de courrier personnels plutôt qu'administratifs.). Il faut par contre éviter de considérer toute image partiellement masquée comme juste au risque de voir des visages partout ! Il est ainsi fréquent que le cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite les informations en provenance des sens, contrôle de nombreuses fonctions du corps, dont la motricité volontaire, et...) humain soit pris à défaut et chacun a ainsi déjà vu des visages dans les nuages...


Image différence sans occultation - Image différence avec occultation

Malgré ses avantages, la méthode du réseau modélisateur seule ne permet pas actuellement une détection en temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) réel d'un visage dans une image. Il est cependant inutile de tester toutes les positions de l'image et un couplage avec d'autres techniques non neuronales, par exemple la restriction à la couleur (La couleur est la perception subjective qu'a l'œil d'une ou plusieurs fréquences d'ondes lumineuses, avec une (ou des) amplitude(s) donnée(s).) de la chair, permet l'accélération (L'accélération désigne couramment une augmentation de la vitesse ; en physique, plus précisément en cinématique, l'accélération est une grandeur vectorielle qui indique...) des calculs dans un premier temps avant d'affiner la détection avec le réseau. Dans le cas d'une application de tracking, un test périodique sur l'objet suivi peut également suffire à limiter les erreurs. Mais rien n'empêche non plus de concevoir une puce neuronale directement reliée en parallèle au capteur (Un capteur est un dispositif transformant l'état d'une grandeur physique observée en une grandeur utilisable exemple : une tension électrique,...) CCD et possédant autant de réseaux que de positions et tailles possible ! Cela peut alors paraître irréalisable, mais il faut savoir qu'un réseau de neurones n'est constitué que de briques élémentaires (principalement l'addition (L'addition est une opération élémentaire, permettant notamment de décrire la réunion de quantités ou l'adjonction de grandeurs extensives de même nature, comme les longueurs, les aires, ou les volumes....) et la multiplication) et qu'avec les niveaux d'intégration actuels, cette puce serait bien plus petite que le capteur optique (L'optique est la branche de la physique qui traite de la lumière, du rayonnement électromagnétique et de ses relations avec la vision.) lui même.
Page générée en 0.135 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique