Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Posté par Redbran le Samedi 12/08/2017 à 00:00
« Transporter » les données pour mieux les classer
International Conference on Machine Learning (ICML) est une des conférences de référence sur l’apprentissage, outil essentiel pour l’analyse efficace d’un grand volume de données. L’opportunité de découvrir des exemples de ce domaine très visible actuellement. Dans ce premier focus, des chercheurs ont développé une nouvelle méthode pour créer des groupes dans des données en exploitant toute la richesse d’un outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se traduit par la simplification des...) mathématique appelé transport (Le transport, du latin trans, au-delà, et portare, porter, est le fait de porter quelque chose, ou quelqu'un, d'un lieu à un autre.) optimal.

Dans le domaine de l’apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs culturelles, par l'observation, l'imitation,...) non supervisée, où les données ne sont pas « étiquetées » par des humains pour les définir, un champ (Un champ correspond à une notion d'espace défini:) de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances...) concerne la classification des données, pour pouvoir créer automatiquement des groupes qui fassent du sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie humaine. Par une...). La classification simple cherche à créer des groupes d’individus qui partagent des caractéristiques proches. La classification croisée (ou co-clustering) effectue la même démarche pour les individus mais aussi pour les caractéristiques qui les définissent (appelées variables). Dans l’exemple ci-dessous, les individus seraient uniquement regroupés en fonction de leur genre ou autres variables, mais on pourrait voir également apparaître des corrélations entre différentes caractéristiques: les personnes brunes ont plus souvent les yeux marrons, les personnes de grande taille ont un poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du...) plus élevé…


En réorganisant les données dans un tableau (Tableau peut avoir plusieurs sens suivant le contexte employé :) (ou matrice) qui décrit les individus et leurs différentes variables, les algorithmes de classification croisée visent à créer des blocs homogènes. Ces blocs, appelés aussi co-clusters, peuvent être considérés comme des sous-ensembles de la matrice de données. Cet outil d’interprétation des groupes permet ainsi de faire ressortir des informations pertinentes sur des individus mais aussi sur des variables qui ont des comportements proches.

Pour exploiter ces données, il faut imaginer que les chercheurs représentent les informations par des points dans des dimensions qui peuvent être très grandes. Ainsi, de la même façon qu’un point (Graphie) peut être défini par une abscisse et une ordonnée dans un plan à deux dimensions, un individu (Le Wiktionnaire est un projet de dictionnaire libre et gratuit similaire à Wikipédia (tous deux sont soutenus par la fondation Wikimedia).) peut être défini par un point dans un espace aux dimensions qui correspondent au nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de variables qui le caractérisent: il se situe à tel niveau sur la dimension (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une pièce sont sa longueur, sa largeur et sa profondeur/son épaisseur, ou bien son diamètre si c'est une pièce de...) « genre », tel autre pour la dimension (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une pièce sont sa longueur, sa largeur et sa profondeur/son épaisseur, ou bien son...) « taille », et ainsi de suite. Cette constellation (Une constellation est un ensemble d'étoiles dont les projections sur la voûte céleste sont suffisamment proches pour qu'une civilisation les...) de points, difficile à représenter, est également réalisé pour chaque variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou un...). Le nombre de dimensions correspond cette fois au nombre d’individus, qui est généralement beaucoup plus grand dans les bases de données ! Ainsi, pour l’exemple de la couleur (La couleur est la perception subjective qu'a l'œil d'une ou plusieurs fréquences d'ondes lumineuses, avec une (ou des) amplitude(s) donnée(s).) des cheveux, la variable ne prendra pas uniquement 4 ou même 10 types de réponses possibles, mais la nuance précise de chaque individu, ce qui créera ainsi une dimension à chaque fois.

Pour permettre le rapprochement entre la constellation de points des individus et celle des variables, toujours dans le but de créer des groupes, les chercheurs de la publication Co-clustering through Optimal Transport (Le transport est le fait de porter quelque chose, ou quelqu'un, d'un lieu à un autre, le plus souvent en utilisant des véhicules et des voies de communications (la route, le canal...) ont eu l’idée originale d’exploiter un outil mathématique appelé transport optimal. La force (Le mot force peut désigner un pouvoir mécanique sur les choses, et aussi, métaphoriquement, un pouvoir de la volonté ou encore une vertu morale « cardinale »...) de cet outil est de chercher à transporter des ressources au moindre coût, qu’il s’agisse d’objets réels ou de couleurs dans une image. Le transport optimal définit une distance entre des ensembles en mesurant « l’effort » de transfert de la masse (Le terme masse est utilisé pour désigner deux grandeurs attachées à un corps : l'une quantifie l'inertie du corps (la masse inerte) et l'autre la contribution du corps à la force de gravitation (la masse...) pour passer (Le genre Passer a été créé par le zoologiste français Mathurin Jacques Brisson (1723-1806) en 1760.) d’une distribution à l’autre. Cet outil permet ainsi de déterminer les associations entre deux ensembles d’objets en minimisant la distance qui les sépare. Les chercheurs ont ainsi considéré que les deux ensembles devant être transporté l’un vers l’autre, était l’ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) des individus d’une part et l’ensemble des variables qui les caractérise d’autre part. L’intuition des chercheurs était que plus le coût de transport pour déplacer un point vers un autre était faible, plus les données étaient proches, permettant ainsi de les regrouper en blocs homogènes.

Restaient à déterminer la matrice de coût de transport, récapitulatif de combien peut coûter chaque transport, et le plan de transport, sorte de feuille (La feuille est l'organe spécialisé dans la photosynthèse chez les végétaux supérieurs. Elle est insérée sur les tiges des plantes au niveau des nœuds. À l'aisselle de la feuille se...) de route (Le mot « route » dérive du latin (via) rupta, littéralement « voie brisée », c'est-à-dire creusée dans la roche, pour ouvrir le chemin.) logistique (La logistique est l'activité qui a pour objet de gérer les flux physiques d'une organisation, mettant ainsi à disposition des ressources correspondant aux...) pour mener le transport optimal. Pour cela les chercheurs ont exploité la version régularisée du transport proposée par Marco Cuturi en 2013, qui permet une meilleure répartition des transports et une solution moins stricte dans la distribution. Puis ils ont appliqué l’algorithme de Sinkhorn-Knopp qui permet un calcul efficace. La solution obtenue décompose le plan de transport en une factorisation en trois termes: la matrice de coût associée au transport d’un ensemble sur l’autre et deux vecteurs de normalisations assurant que le plan de transport soit bi-stochastique.


Les chercheurs devaient encore déterminer dans lequel de ces trois éléments (matrice de coût et deux vecteurs) se trouvait la réponse de la répartition en co-clusters. Ils ont pu définir que les vecteurs de normalisations pouvaient être vus comme des approximations de distributions des blocs homogènes des individus et des variables. Autre avancée très importante, grâce à cette méthode les chercheurs sont capables de déterminer automatiquement le nombre de co-clusters, contrairement aux méthodes habituelles qui nécessitent de définir un nombre arbitraire au préalable.

Les chercheurs ont pu tester leur nouvelle méthode sur un jeu de données publiques sur la recommandation (Les industries ne fonctionnent pas correctement sans normes garantissant l'interopérabilité, des organismes crées pour, promulguent des recommandations, qui si elles sont suivies deviennent des normes ou des...) de films (900 utilisateurs, 1600 films et 100 000 notes). La méthode classique de recommandation se base sur l’apprentissage de profils d’utilisateurs proches pour conseiller d’autres films que ces utilisateurs voisins ont aimés. Dans l’application de leur approche à ce jeu de données, les chercheurs ont ainsi construit simultanément des groupes d’utilisateurs et des groupes de films homogènes, c’est-à-dire des groupes d’utilisateurs ayant les mêmes goûts en termes de films et des groupes de films recevant les mêmes notes par les utilisateurs. Dans les deux cas, le nombre de groupe a été défini automatiquement, et les chercheurs ont pu donner une interprétation cohérente à ces groupes et montrer la capacité de leur approche pour prédire une bonne recommandation de films aux utilisateurs.


Légende de l'image

Référence publication:
Co-clustering through Optimal Transport, de Charlotte Laclau [1] [2], Ievgen Redko [3], Basarab Matei [1], Younès Bennani [1], Vincent Brault [4]

[1] Laboratoire d’Informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de l'information par des machines telles que...) de Paris-Nord (LIPN - CNRS/Université Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin...) 13)
[2] Devenue post-doctorante au Laboratoire d’Informatique de Grenoble (LIG, CNRS/Inria/Grenoble INP/Université Grenoble Alpes)
[3] Centre de Recherche en Acquisition (En général l'acquisition est l'action qui consiste à obtenir une information ou à acquérir un bien.) et Traitement d’Images pour la Santé (CREATIS - CNRS/Inserm/Université de Lyon/INSA Lyon)
[4] Laboratoire Jean Kuntzmann (Jean Kuntzmann (1912 – 1992) fut professeur à la Faculté des Sciences de Grenoble où il dirigea le service de Mathématiques Appliquées. Il a également créé le premier...) (LJK – CNRS/Grenoble INP/Université Grenoble Alpes)

Pour plus d'information voir:
- International Conference on Machine Learning
- Co-clustering through Optimal Transport
- couleurs dans une image

Commentez et débattez de cette actualité sur notre forum Techno-Science.net. Vous pouvez également partager cette actualité sur Facebook, Twitter et les autres réseaux sociaux.
Icone partage sur Facebook Icone partage sur Twitter Partager sur Messenger Icone partage sur Delicious Icone partage sur Myspace Flux RSS
Source et illustrations: CNRS INS2I