Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Bons plans et avis Gearbest: Xiaomi Mi Mix2, OnePlus 5T
Code promo Gearbest: réduction, coupon, livraison...
Photo Mystérieuse

Que représente
cette image ?
Posté par Adrien le Lundi 01/12/2014 à 12:00
Les pièges des données des médias sociaux
Un nombre croissant de chercheurs universitaires explorent les données issues des médias sociaux afin d'approfondir leurs connaissances sur le comportement humain, en ligne et hors ligne. Au cours des dernières années, des études ont prétendu pouvoir tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) prédire, qu'il s'agisse des succès cinématographiques de l'été ou des fluctuations boursières.

Or, de plus en plus, des lacunes sont démontrées dans bon nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de ces études, d'où la nécessité, pour les chercheurs, d'éviter les pièges redoutables de l'utilisation de vastes corpus de données issues des médias sociaux, selon des informaticiens de l'Université McGill, à Montréal, et de l'Université Carnegie Mellon, à Pittsburgh.

Ces résultats erronés peuvent avoir de lourdes conséquences. En effet, chaque année, des milliers d'articles de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la...) reposent maintenant sur les données issues des médias sociaux. « Bon nombre de ces articles sont utilisés par le public, l'industrie et le gouvernement pour motiver et justifier des décisions et des investissements », affirme Derek Ruths, professeur adjoint à l'École d'informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de l'information par des machines telles que les...) de l'Université McGill.

Dans un article publié dans le numéro du 28 novembre 2014 de la revue scientifique (Un scientifique est une personne qui se consacre à l'étude d'une science ou des sciences et qui se consacre à l'étude d'un domaine avec la rigueur et les méthodes scientifiques.) Science, Derek Ruths et Jürgen Pfeffer, de l'Institut (Un institut est une organisation permanente créée dans un certain but. C'est habituellement une institution de recherche. Par exemple, le Perimeter Institute for Theoretical Physics est un tel...) de recherche logicielle de l'Université Carnegie Mellon, font ressortir plusieurs problèmes associés à l'utilisation de données issues des médias sociaux - et proposent des stratégies permettant de les surmonter. Ils mentionnent notamment les problèmes suivants:

- les diverses plateformes de médias sociaux attirent différents types d'utilisateurs. Pinterest, par exemple, intéresse surtout les femmes de 25 à 34 ans, mais les chercheurs corrigent rarement l'image biaisée que ces échantillons peuvent donner;

- les sources de données accessibles publiquement reflètent rarement l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une...) des données des médias sociaux, et les chercheurs ignorent généralement quand et comment les médias sociaux filtrent leurs flux (Le mot flux (du latin fluxus, écoulement) désigne en général un ensemble d'éléments (informations / données, énergie, matière, ...)...) de données;

- la conception des plateformes de médias sociaux peut dicter la façon dont les utilisateurs se comportent et, par conséquent, le type de comportements qu'il est possible de mesurer. Ainsi, sur Facebook (Facebook est un réseau social créé par Mark Zuckerberg et destiné à rassembler des personnes proches ou inconnues. Depuis décembre 2009,...), l'absence d'un bouton « je n'aime pas » rend plus difficile la détection de réactions négatives au contenu que la présence d'un bouton « j'aime » témoignant de réactions positives;

- un grand nombre de polluposteurs (« spammers ») et de bots, qui se font passer (Le genre Passer a été créé par le zoologiste français Mathurin Jacques Brisson (1723-1806) en 1760.) pour des utilisateurs normaux sur les médias sociaux, sont intégrés par erreur à de nombreuses mesures et prédictions du comportement humain;

- les chercheurs font souvent état de leurs résultats pour des groupes d'utilisateurs, de sujets et d'événements faciles à classifier, donnant ainsi l'illusion que les nouvelles méthodes sont plus exactes qu'elles ne le sont en réalité. Ainsi, les efforts visant à déterminer l'orientation (Au sens littéral, l'orientation désigne ou matérialise la direction de l'Orient (lever du soleil à l'équinoxe) et des points cardinaux (nord de la boussole) ;) politique d'utilisateurs de Twitter (Twitter est un outil de réseau social et de microblogage qui permet à l’utilisateur d’envoyer gratuitement des messages brefs, appelés tweets...) ne sont exacts qu' 65 % dans le cas des utilisateurs types, et ce, même si certaines études (basées sur des utilisateurs politiquement actifs) ont fait état d'une exactitude de 90 %.

Selon Derek Ruths et Jürgen Pfeffer, des solutions bien connues à bon nombre de ces problèmes ont déjà été trouvées par des disciplines telles que l'épidémiologie, la statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une...) et l'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs culturelles, par l'observation, l'imitation,...) machine. « Ces problèmes ont ceci en commun que les chercheurs doivent savoir exactement ce qu'ils analysent réellement lorsqu'ils travaillent à l'aide de données issues des médias sociaux », affirme Derek Ruths.

Les spécialistes des sciences sociales ont déjà affiné leurs normes et leurs techniques afin de relever ce type de défi avec succès. « La célèbre manchette de 1948 "Dewey défait Truman" vient du fait que les sondages téléphoniques avaient sous-échantillonné les partisans de Truman dans la population générale », explique le professeur Ruths. « Or, plutôt que de discréditer de façon permanente le recours aux sondages, cette erreur monumentale a mené aux méthodes de sondage ( Un sondage peut désigner une technique d'exploration locale d'un milieu particulier. Un sondage peut également être une méthode statistique...) plus évoluées et plus exactes, ainsi qu'aux normes plus strictes que nous connaissons aujourd'hui. Nous en sommes maintenant à un tournant technologique semblable. En nous attaquant à ces problèmes, nous pourrons mesurer pleinement les avantages que comporte la recherche fondée sur les données issues des médias sociaux. »

Commentez et débattez de cette actualité sur notre forum Techno-Science.net. Vous pouvez également partager cette actualité sur Facebook, Twitter et les autres réseaux sociaux.
Icone partage sur Facebook Icone partage sur Twitter Partager sur Messenger Icone partage sur Delicious Icone partage sur Myspace Flux RSS
Source: Université McGill