
Du désordre peut naître l'ordre. Ce principe, souvent constaté dans la nature, s'applique aussi aux comportements des internautes sur la Toile. C'est ce que viennent de découvrir des physiciens du Centre de
physique théorique (La physique théorique est la branche de la physique qui étudie l’aspect théorique des lois physiques et en...), à Marseille (résultat paru dans
PNAS du 30 juin 2009), en collaboration avec des équipes italiennes. Les chercheurs se sont penchés sur certains sites
internet (Internet est le réseau informatique mondial qui rend accessibles au public des services comme le courrier électronique...) où les utilisateurs annotent par des mots-clés, couramment appelés tags, – le contenu de pages web. Peu à peu, ces mots-clés constituent une gigantesque base de
données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose,...) qui permet de faire des recherches très précises sur l'
ensemble (En théorie des ensembles, un ensemble, désigne intuitivement une collection d’objets (que l'on appelle éléments...) des sites annotés.
En étudiant de près la structure de cette base de données, construite sans concertation des internautes entre eux, les scientifiques se sont rendu compte qu'elle était loin d'être anarchique. "Preuve en est la taille du dictionnaire de mots-clés utilisés par la communauté, note Alain Barrat. Celui-ci grandit de manière régulière, en suivant une équation bien précise."
L'étape suivante pour les chercheurs a été de retrouver mathématiquement pourquoi ils observaient une telle propriété. "Chaque individu est complexe, explique Alain Barrat. Mais l'action cumulée et non coordonnée de plusieurs millions d'entre eux va faire émerger des comportements qu'on peut modéliser par des concepts
mathématiques (Les mathématiques désignent la science du vrai et du faux en général. C'est-à-dire qu'elle ne s'attache pas à dire ce...) simples." Ainsi, nos physiciens ont montré que la structure de la base de données pouvait être reconstruite à partir d'une succession de marches aléatoires, un concept courant en physique
statistique (Une statistique (par opposition à la statistique) est, au premier abord, un nombre calculé à propos d'une population....) qui décrit différentes trajectoires obtenues par une série de déplacements dans des directions choisies au
hasard (Dans le langage ordinaire, le mot hasard est utilisé pour exprimer un manque apparent, sinon de causes, au moins de...).
Pour les chercheurs, une seule explication. Selon eux, il existerait un réseau sémantique sous-jacent qui relierait entre eux les mots-clés et dans lequel les internautes "marcheraient" au hasard. "C'est une idée qui existe depuis longtemps en linguistique, explique Alain Barrat. Sans en avoir conscience, chaque internaute associerait au mot-clé principal – évident – d'une
page web (Une page Web est une ressource du World Wide Web conçue pour être consultée par des visiteurs à l'aide d'un navigateur...) un autre mot-clé bien à lui." À l'annotation “fleur” pour une page de botanique par exemple, l'un va associer le mot “rose”, l'autre le mot “pétale”, etc. "Répété par l'ensemble des utilisateurs, ce mécanisme permet d'expliquer nos
observations (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide...)", ajoute le
chercheur (Un chercheur (fem. chercheuse) désigne une personne dont le métier consiste à faire de la recherche. Il est difficile...).
Un résultat théorique qui pourrait un jour déboucher sur des applications bien concrètes. Notamment la lutte contre le
spamdexing (Spamdexing est un néologisme anglais composé du substantif spam et du suffixe dexing pris sur le terme indexing...) ou
référencement (Le référencement est l'action de référencer, c'est-à-dire mentionner quelque chose. Sur internet, faire un lien vers...) abusif. Certains spameurs n'hésitent pas, en effet, à infiltrer les sites en question en ajoutant une longue liste de mots-clés sans rapport avec la page mais qui renvoient discrètement vers des sites commerciaux. "C'est un comportement qui va contre les règles établies par la communauté d'internautes, commente Alain Barrat. Si on parvient à bien modéliser le fonctionnement normal de ce réseau d'utilisateurs, alors tout phénomène bizarre qui s'en écartera sera rejeté." Les pollueurs n'ont qu'à bien se tenir.
Pierre Mira