Ce site necessite l'activation du javascript dans votre navigateur pour un affichage correct !
  Nos sites: Techno-Science.net | Allons-Sortir.fr
Style du site: Original | Azur   
Découvrez toute l'actualité scientifique et technologique, des dossiers, des évènements et sorties scientifiques...
Techno-Science
Outils
Proposez-nous
Archives
Partenaires / Sites
Organismes
 CEA
 ESA
Sites Web
Posté par Michel le Mercredi 16 Décembre 2009 à 00:00:42
Les mots du web en équation
Du désordre peut naître l'ordre. Ce principe, souvent constaté dans la nature, s'applique aussi aux comportements des internautes sur la Toile. C'est ce que viennent de découvrir des physiciens du Centre de physique théorique (La physique théorique est la branche de la physique qui étudie l’aspect théorique des lois physiques et en...), à Marseille (résultat paru dans PNAS du 30 juin 2009), en collaboration avec des équipes italiennes. Les chercheurs se sont penchés sur certains sites internet (Internet est le réseau informatique mondial qui rend accessibles au public des services comme le courrier électronique...) où les utilisateurs annotent par des mots-clés, couramment appelés tags, – le contenu de pages web. Peu à peu, ces mots-clés constituent une gigantesque base de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose,...) qui permet de faire des recherches très précises sur l'ensemble (En théorie des ensembles, un ensemble, désigne intuitivement une collection d’objets (que l'on appelle éléments...) des sites annotés.

En étudiant de près la structure de cette base de données, construite sans concertation des internautes entre eux, les scientifiques se sont rendu compte qu'elle était loin d'être anarchique. "Preuve en est la taille du dictionnaire de mots-clés utilisés par la communauté, note Alain Barrat. Celui-ci grandit de manière régulière, en suivant une équation bien précise."

L'étape suivante pour les chercheurs a été de retrouver mathématiquement pourquoi ils observaient une telle propriété. "Chaque individu est complexe, explique Alain Barrat. Mais l'action cumulée et non coordonnée de plusieurs millions d'entre eux va faire émerger des comportements qu'on peut modéliser par des concepts mathématiques (Les mathématiques désignent la science du vrai et du faux en général. C'est-à-dire qu'elle ne s'attache pas à dire ce...) simples." Ainsi, nos physiciens ont montré que la structure de la base de données pouvait être reconstruite à partir d'une succession de marches aléatoires, un concept courant en physique statistique (Une statistique (par opposition à la statistique) est, au premier abord, un nombre calculé à propos d'une population....) qui décrit différentes trajectoires obtenues par une série de déplacements dans des directions choisies au hasard (Dans le langage ordinaire, le mot hasard est utilisé pour exprimer un manque apparent, sinon de causes, au moins de...).

Pour les chercheurs, une seule explication. Selon eux, il existerait un réseau sémantique sous-jacent qui relierait entre eux les mots-clés et dans lequel les internautes "marcheraient" au hasard. "C'est une idée qui existe depuis longtemps en linguistique, explique Alain Barrat. Sans en avoir conscience, chaque internaute associerait au mot-clé principal – évident – d'une page web (Une page Web est une ressource du World Wide Web conçue pour être consultée par des visiteurs à l'aide d'un navigateur...) un autre mot-clé bien à lui." À l'annotation “fleur” pour une page de botanique par exemple, l'un va associer le mot “rose”, l'autre le mot “pétale”, etc. "Répété par l'ensemble des utilisateurs, ce mécanisme permet d'expliquer nos observations (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide...)", ajoute le chercheur (Un chercheur (fem. chercheuse) désigne une personne dont le métier consiste à faire de la recherche. Il est difficile...).

Un résultat théorique qui pourrait un jour déboucher sur des applications bien concrètes. Notamment la lutte contre le spamdexing (Spamdexing est un néologisme anglais composé du substantif spam et du suffixe dexing pris sur le terme indexing...) ou référencement (Le référencement est l'action de référencer, c'est-à-dire mentionner quelque chose. Sur internet, faire un lien vers...) abusif. Certains spameurs n'hésitent pas, en effet, à infiltrer les sites en question en ajoutant une longue liste de mots-clés sans rapport avec la page mais qui renvoient discrètement vers des sites commerciaux. "C'est un comportement qui va contre les règles établies par la communauté d'internautes, commente Alain Barrat. Si on parvient à bien modéliser le fonctionnement normal de ce réseau d'utilisateurs, alors tout phénomène bizarre qui s'en écartera sera rejeté." Les pollueurs n'ont qu'à bien se tenir.
Pierre Mira

Source: CNRS (Journal)
Commentez cette news: 7 commentaires
Archives des News
  Septembre 2010
  Août 2010
  Juillet 2010
  Juin 2010
  Toutes les archives


Jeudi 9 Septembre 2010 à 00:00:40 - Astronomie - 0 commentaire
» Un modèle galactique pas si lointain
Jeudi 9 Septembre 2010 à 00:00:34 - Multimédia - 0 commentaire
» Piratage de la PS3: Sony riposte
Mardi 7 Septembre 2010 à 00:00:59 - Vie et Terre - 0 commentaire
» Un antipaludéen prometteur