Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Photo Mystérieuse

Que représente
cette image ?
Posté par Redbran le Vendredi 06/01/2017 à 12:00
Des réseaux, des textes et de la Statistique !
Depuis les travaux précurseurs de Moreno (1934), l'analyse des réseaux est devenue une discipline forte, qui ne se limite plus à la sociologie et qui est à présent appliquée à des domaines très variés tels que la biologie, la géographie ou l'histoire. L'intérêt croissant pour l'analyse des réseaux s'explique d'une part par la forte présence de ce type de données dans le monde (Le mot monde peut désigner :) numérique (Une information numérique (en anglais « digital ») est une information ayant été quantifiée et échantillonnée, par opposition à une...) d'aujourd'hui et, d'autre part, par les progrès récents dans la modélisation et le traitement de ces données.

En effet, informaticiens et statisticiens ont porté leurs efforts depuis plus d'une dizaine d'années sur ces données de type réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des informations. Par analogie avec un filet (un réseau est un « petit rets », c'est-à-dire un petit filet), on appelle nœud...) et ont proposé de nombreuses techniques permettant leur analyse. Les méthodes de clustering permettent en particulier de découvrir une structure en groupes cachés dans le réseau. Rappelons que le clustering est une technique qui vise à regrouper les individus (possiblement en grand nombre) en un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) limité de groupes homogènes afin de faciliter l'interprétation des données. Dans ce cadre, les méthodes statistiques présentent l'avantage d'offrir une segmentation (De manière générale, le mot segmentation désigne l'action de segmenter, le fait de se segmenter ou son résultat. En particulier, le mot est employé dans les domaine...) fine des données dont l'interprétation est facilitée par le modèle statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation de ces ressources...) sous-jacent.


Figure 1: Résultat de l'analyse avec STBM du réseau des emails Enron.

Malgré les nombreux développements dans ce domaine, l'analyse conjointe des réseaux et des textes associés n'a reçu qu'une attention très limitée, alors même que la plupart des réseaux sociaux sont aujourd'hui associés à du texte (emails, Facebook (Facebook est un réseau social créé par Mark Zuckerberg et destiné à rassembler des personnes proches ou inconnues. Depuis décembre 2009, il rassemblerait, selon la firme, plus de 500 millions de membres actifs à...), Twitter (Twitter est un outil de réseau social et de microblogage qui permet à l’utilisateur d’envoyer gratuitement des messages brefs, appelés tweets (« gazouillis »), par Internet, par messagerie...), ...). Dans un travail récent, nous avons proposé une nouvelle méthodologie statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat...), baptisée STBM (Stochastic Topic Block Model), qui permet de segmenter les nœuds (individus) d'un réseau avec arêtes textuelles, tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) en identifiant (En informatique, on appelle identifiants (également appelé parfois en anglais login) les informations permettant à une personne de s'identifier auprès d'un système.) les thèmes de discussions utilisés. STBM requiert uniquement la donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) d'un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) d'échanges de textes entre des individus, ou plus généralement entre des entités. Par exemple, on peut considérer les échanges de textes entre des individus d'un réseau social (Un réseau social est un ensemble d'entités sociales tel que des individus ou des organisations sociales reliés entre eux par des liens créés lors des interactions sociales. Il se...), ou les échanges d'emails entre les employés d'une entreprise, ou encore les co-publications de brevets ou publications scientifiques. Il est intéressant de noter que, d'un point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) mathématique (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres,...), le modèle STBM généralise deux modèles statistiques très populaires: le Stochastic Block Model (SBM), dédié au clustering de nœuds d'un réseau, et le Latent Dirichlet Allocation (LDA), dédié à l'analyse de textes.

A titre d'exemple, STBM a été appliqué à l'analyse des emails de l'entreprise Enron qui a connu au début des années 2000 une banqueroute très médiatisée. STBM a identifié que le réseau contenait 10 groupes d'invidus et 5 thèmes de discussion. La figure ci-dessous permet de visualiser à la fois la classification des individus (couleurs des nœuds) et les thèmes majoritaires de discussions (couleurs des arêtes). Le tableau (Tableau peut avoir plusieurs sens suivant le contexte employé :) du dessous permet d'interpréter les thèmes de discussion identifiés par la méthode en observant les mots les plus fréquents de chaque thème. Il est intéressant de noter que STBM fait apparaître, parmi des thèmes attendus et liés aux activités d'une entreprise de Gaz (Un gaz est un ensemble d'atomes ou de molécules très faiblement liés et quasi-indépendants. Dans l’état gazeux, la matière n'a pas de forme propre ni de volume...), deux thèmes particuliers (topics 2 et 3) et qui sont en fait deux des principaux pans du scandale Enron: les relations troubles entretenues par Enron et la Maison Blanche (La Maison Blanche (White House en anglais) est la résidence officielle et le bureau du président des États-Unis. Elle se situe au 1600, Pennsylvania...) avec les Talibans en Afganistan ainsi que la mise en cause d'Enron dans la banqueroute de la compagnie Edison.


Figure 2: Mots les plus fréquents dans chacun des 5 thèmes de discussions.

Il est possible d'explorer les données Enron au travers de la méthode STBM avec l'application en ligne disponible à l'adresse (Les adresses forment une notion importante en communication, elles permettent à une entité de s'adresser à une autre parmi un ensemble d'entités. Pour qu'il n'y ait pas...) suivante: up5.fr/enron.

Référence publication:
C. Bouveyron, P. Latouche and R. Zreik, The Stochastic Topic Block Model for the Clustering of Networks with Textual Edges, Statistics and Computing, in press, 2017.

Contacts:
Charles Bouveyron | Mathématiques Appliquées à Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin parisien, entre les confluents de la Marne et de la Seine en...) 5 (MAP5) | UMR 8145 | CNRS (Le Centre national de la recherche scientifique, plus connu sous son sigle CNRS, est le plus grand organisme de recherche scientifique public français (EPST).) & Université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa...) Paris Descartes.
Pierre Latouche | Laboratoire Statistique, Analyse, Modélisation Multidisciplinaire (SAMM) | EA 4543 | Université Paris 1 (Panthéon-Sorbonne).

Commentez et débattez de cette actualité sur notre forum Techno-Science.net. Vous pouvez également partager cette actualité sur Facebook, Twitter et les autres réseaux sociaux.
Icone partage sur Facebook Icone partage sur Twitter Partager sur Messenger Icone partage sur Delicious Icone partage sur Myspace Flux RSS
Source: CNRS