Les personnalités historiques les plus influentes sur Wikipédia
Publié par Isabelle le 16/03/2015 à 00:00
Source: CNRS
Carl Von Linné, Jésus Christ, Aristote, Napoléon, Adolf Hitler, Jules César, Platon, William Shakespeare et Albert Einstein. Voici l'ordre d'importance des personnalités historiques donné par l'algorithme de PageRank appliqué à Wikipédia (Wikipédia (prononcé /wi.ki.pe.dja/) est une encyclopédie, multilingue, universelle, librement diffusable, disponible sur le Web et écrite par les internautes grâce...). C'est ce que viennent de proposer deux physiciens du Laboratoire de physique théorique (La physique théorique est la branche de la physique qui étudie l’aspect théorique des lois physiques et en développe le formalisme mathématique.) (CNRS/Université de Toulouse III – Paul Sabatier), qui ont adapté des méthodes d'analyse des réseaux complexes à celui formé par les hyperliens entre les pages de Wikipédia, et ce, en 24 langues.

Ces travaux, qui permettent de mesurer l'influence culturelle à l'échelle locale et mondiale des personnalités de l'encyclopédie, sont publiés le 4 mars 2015 dans la revue Plos One (PLoS One est une revue scientifique exclusivement en ligne couvrant tous les domaines de la biologie et de la médecine sans distinction, qui a été lancée à...).

Le réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des informations. Par analogie avec un filet (un réseau est un « petit rets », c'est-à-dire un petit filet), on appelle...) complexe constitué par les pages de l'encyclopédie en ligne Wikipédia, et les nombreux (hyper)liens internes entre elles (liens entrants et sortants), représentent une photographie extraordinaire de la connaissance humaine, qui peut être exploitée afin d'identifier l'influence de personnalités, et l'évolution de l'impact et des interactions entre diverses cultures au cours de l'histoire. L'équipe interdisciplinaire (Un travail interdisciplinaire intègre des concepts provenant de différentes disciplines.) et internationale de chercheurs impliqués dans cette étude, incluant deux physiciens du Laboratoire de physique (La physique (du grec φυσις, la nature) est étymologiquement la « science de la nature ». Dans un sens général et ancien, la physique désigne la connaissance de...) théorique de Toulouse, a ainsi classé les articles biographiques de Wikipédia par leur "importance/influence" au moyen des algorithmes PageRank (Le PageRank (terme anglais signifiant « classement d'une page ») ou PR désigne le système de classement des pages Web utilisé par le moteur de recherche Google pour attribuer l'ordre des liens dans les...) de Google (Google, Inc. est une société fondée le 7 septembre 1998 dans la Silicon Valley en Californie par Larry Page et Sergey Brin, auteurs du moteur de recherche Google. Depuis 2001, Eric...), CheiRank, et 2DRank (ces deux derniers, largement développés au LPT), bien adaptés à l'étude des réseaux complexes (voir l'encadré).

La liste globale obtenue des 100 personnes les plus influentes reproduit 43 % de la liste historique de Hart, et peut être consultée (ainsi que pour chacune des listes associées aux 24 éditions locales de Wikipédia étudiées) sur la page web (Une page Web est une ressource du World Wide Web conçue pour être consultée par des visiteurs à l'aide d'un navigateur Web. Elle a une adresse Web. Techniquement, une page Web est souvent...) du LPT dédiée à cette étude, avec des cartes interactives illustrant la distribution de ces personnes dans le monde (Le mot monde peut désigner :). Par exemple, pour Wikipédia en français, le trio de tête des personnalités françaises les plus influentes sont: Napoléon, Louis XIV, René Descartes (algorithme PageRank) ; Napoléon, Jules Verne (Jules Verne, né le 8 février 1828 à Nantes et mort le 24 mars 1905 à Amiens, est un écrivain français, dont une grande partie de l'œuvre est consacrée à...), Louis XIV (2DRank). Pour Wikipédia en anglais, les trois personnalités de langues anglaises les plus influentes sont William Shakespeare, Elizabeth II, Isaac Newton (Sir Isaac Newton était un philosophe, mathématicien, physicien et astronome anglais né le 4 janvier 1643 du calendrier grégorien[1] au manoir de Woolsthorpe près de...) (PageRank), mais Napoléon domine le classement complet en langue anglaise ! Globalement, les huit personnalités les plus influentes selon le PageRank sont Carl von Linné, Jésus Christ, Aristote (Aristote (en grec ancien Ἀριστοτέλης / Aristotélês) est un philosophe grec né à Stagire (actuelle Stavros) en Macédoine (d’où le surnom...), Napoléon, Adolf Hitler, Jules César, Platon, William Shakespeare, et Albert Einstein (Albert Einstein (né le 14 mars 1879 à Ulm, Wurtemberg, et mort le 18 avril 1955 à Princeton, New Jersey) est un physicien qui fut successivement allemand,...). La 1ière position a priori étonnante du naturaliste (Le mot naturaliste fait référence au domaine des sciences naturelles. L'adjectif qualifie une personne ou un groupe (association, société savante.. )) suédois Carl von Linné (respectivement classé 2ième et 3ième par le PageRank dans la version française et anglaise) tient à son rôle de fondateur des bases du système moderne de la nomenclature binominale (et du classement) des espèces vivantes, et au très grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) d'articles de Wikipédia consacrées à celles-ci.


Carte de l'influence globale selon l'algorithme PageRank (la couleur du pays (Pays vient du latin pagus qui désignait une subdivision territoriale et tribale d'étendue restreinte (de l'ordre de quelques centaines de km²), subdivision de la civitas...) est d'autant plus sombre que son degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants :) d'influence est important). De nombreuses cartes interactives générées par les différents algorithmes sont consultables surla page web du groupe Cohérence Quantique du Laboratoire de physique théorique (LPT) dédiée à ce travail.
Les chercheurs ont aussi analysé la distribution géographique (voir la figure), temporelle, homme/femme, de ces personnalités, en lien avec leur culture (La définition que donne l'UNESCO de la culture est la suivante [1] :) d'origine. Cette étude établit non seulement l'existence d'un biais naturel favorisant les personnalités de la culture (La Culture est une civilisation pan-galactique inventée par Iain M. Banks au travers de ses romans et nouvelles de science-fiction. Décrite avec beaucoup de précision et de détail, La Culture peut...) locale (associée à une langue donnée (Dans les technologies de l'information, une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction, d'un événement, etc.) de Wikipédia), mais révèle aussi un groupe de personnalités ayant une influence véritablement globale. Cette étude considère des personnes balayant une période de 35 siècles de l'histoire humaine, d'origine et de culture extraordinairement variées, ce qui a permis de reconstruire les interactions et "l'intrication" de ces cultures au cours du temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.), et de quantifier objectivement leur degré d'influence.

L'étude des réseaux complexes est un domaine de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances...) extrêmement actif et intrinsèquement interdisciplinaire, impliquant des chercheurs en physique, mathématiques (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres, les figures, les structures et les transformations. Les...), informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement...), biologie (La biologie, appelée couramment la « bio », est la science du vivant. Prise au sens large de science du vivant, elle recouvre...), sciences humaines et sociales... Les réseaux considérés peuvent être issus de sociétés humaines (Internet ; web – comme ici, avec Wikipédia ; transport (Le transport est le fait de porter quelque chose, ou quelqu'un, d'un lieu à un autre, le plus souvent en utilisant des véhicules et des voies de...) ; échanges commerciaux...), animales (réseau des galeries d'une termitière ; réseau d'interaction (Une interaction est un échange d'information, d'affects ou d'énergie entre deux agents au sein d'un système. C'est une action réciproque qui suppose l'entrée en contact de...) entre individus...), ou émergent dans d'autres sciences (réseau d'interaction de protéines ; réseau des neurones du cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite les informations en provenance des sens, contrôle de nombreuses fonctions du corps, dont la motricité volontaire, et constitue...) ; propagation d'épidémies via les réseaux de transport aérien (Le transport aérien est le secteur économique qui regroupe toutes les activités de transport en avion ou en hélicoptère.) et/ou de migration aviaire ; réseau d'interaction des routines informatiques de Linux (Au sens strict, Linux est le nom du noyau de système d'exploitation libre, multitâche, multiplate-forme et multi-utilisateur de type UNIX créé par Linus Torvalds, souvent...)...). Les méthodes développées par les physiciens du LPT peuvent en fait s'appliquer (et l'ont été dans certains exemples cités ci-dessus) à des réseaux apparaissant dans ces contextes très divers. Elles permettent ainsi d'identifier et caractériser des communautés en interaction (sans que les acteurs soient nécessairement conscients de l'existence de leur communauté !), et de mesurer et classer les degrés d'influence des différents nœuds/acteurs du réseau.


"Les algorithmes de classement (Rank)": les trois algorithmes PageRank, CheiRank, et 2DRank mentionnés dans le texte permettent de quantifier l'influence d'un nœud d'un réseau complexe quelconque. Partant initialement d'un nœud arbitraire, on se déplace ensuite aléatoirement sur le réseau (d'où le lien formel avec la physique d'une particule quantique dans un milieu/réseau désordonné) en explorant ses liens au hasard, à chaque pas de temps, tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) en s'autorisant aussi parfois à sauter sur n'importe quel autre nœud du réseau, afin de ne pas rester bloqué sur un nœud sans lien de sortie. Le degré d'influence d'un nœud est alors défini comme étant le pourcentage (Un pourcentage est une façon d'exprimer une proportion ou une fraction dans un ensemble. Une expression comme « 45 % » (lue « 45 pour cent ») est en réalité la sténographie pour la fraction 45/100 dont...) du temps passé (Le passé est d'abord un concept lié au temps : il est constitué de l'ensemble des configurations successives du monde et s'oppose au futur sur une échelle des temps centrée sur le présent....) sur ce nœud, qui converge après un très grand nombre de sauts. Dans le contexte (Le contexte d'un évènement inclut les circonstances et conditions qui l'entourent; le contexte d'un mot, d'une phrase ou d'un texte inclut les mots qui l'entourent. Le concept de...) de Wikipédia, cela correspondrait à un internaute (Un internaute est un utilisateur du réseau Internet.) curieux (et patient (Dans le domaine de la médecine, le terme patient désigne couramment une personne recevant une attention médicale ou à qui est...) ! Il existe environ 1,5 million (Un million (1 000 000) est l'entier naturel qui suit neuf cent quatre-vingt-dix-neuf mille neuf cent quatre-vingt-dix-neuf (999 999) et qui précède un million un...) de pages, rien que sur l'édition française) qui suivrait un lien sortant au hasard par page (et ceci, plusieurs milliards de fois), et appuierait avec une faible probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un sujet...) sur le bouton "Article au hasard" offert par l'encyclopédie. Au final, le degré d'influence d'un nœud du réseau n'est pas simplement conditionné par son nombre de liens sortants ou entrants, mais aussi par l'influence des nœuds auxquels il est connecté, et plus généralement, par la structure globale du réseau. Les trois algorithmes se distinguent par le fait que les sauts autorisés entre nœuds ne peuvent se faire que dans la direction des liens sortants (CheiRank) du réseau étudié, ou au contraire, en remontant uniquement les liens entrants (PageRank), ou encore, en combinant les informations fournies par les deux algorithmes (2DRank).Illustration Wikimedia Commons
Pour plus d'information voir: http://arxiv.org/abs/1405.7183
Page générée en 0.320 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique