En effet, informaticiens et statisticiens ont porté leurs efforts depuis plus d’une dizaine d’années sur ces données de type réseau et ont proposé de nombreuses techniques permettant leur analyse. Les méthodes de clustering permettent en particulier de découvrir une structure en groupes cachés dans le réseau. Rappelons que le clustering est une technique qui vise à regrouper les individus (possiblement en grand nombre) en un nombre limité de groupes homogènes afin de faciliter l’interprétation des données. Dans ce cadre, les méthodes statistiques présentent l’avantage d’offrir une segmentation fine des données dont l’interprétation est facilitée par le modèle statistique sous-jacent.
Figure 1 : Résultat de l’analyse avec STBM du réseau des emails Enron.
A titre d’exemple, STBM a été appliqué à l’analyse des emails de l’entreprise Enron qui a connu au début des années 2000 une banqueroute très médiatisée. STBM a identifié que le réseau contenait 10 groupes d’invidus et 5 thèmes de discussion. La figure ci-dessous permet de visualiser à la fois la classification des individus (couleurs des nœuds) et les thèmes majoritaires de discussions (couleurs des arêtes). Le tableau du dessous permet d’interpréter les thèmes de discussion identifiés par la méthode en observant les mots les plus fréquents de chaque thème. Il est intéressant de noter que STBM fait apparaître, parmi des thèmes attendus et liés aux activités d’une entreprise de Gaz, deux thèmes particuliers (topics 2 et 3) et qui sont en fait deux des principaux pans du scandale Enron : les relations troubles entretenues par Enron et la Maison Blanche avec les Talibans en Afganistan ainsi que la mise en cause d’Enron dans la banqueroute de la compagnie Edison.
Figure 2 : Mots les plus fréquents dans chacun des 5 thèmes de discussions.
Référence publication:
C. Bouveyron, P. Latouche and R. Zreik, The Stochastic Topic Block Model for the Clustering of Networks with Textual Edges, Statistics and Computing, in press, 2017.
Contacts:
Charles Bouveyron | Mathématiques Appliquées à Paris 5 (MAP5) | UMR 8145 | CNRS & Université Paris Descartes.
Pierre Latouche | Laboratoire Statistique, Analyse, Modélisation Multidisciplinaire (SAMM) | EA 4543 | Université Paris 1 (Panthéon-Sorbonne).
Source: CNRS