Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Posté par Adrien le Lundi 01/12/2014 à 12:00
Les pièges des données des médias sociaux
Un nombre croissant de chercheurs universitaires explorent les données issues des médias sociaux afin d'approfondir leurs connaissances sur le comportement humain, en ligne et hors ligne. Au cours des dernières années, des études ont prétendu pouvoir tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) prédire, qu'il s'agisse des succès cinématographiques de l'été ou des fluctuations boursières.

Or, de plus en plus, des lacunes sont démontrées dans bon nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de ces études, d'où la nécessité, pour les chercheurs, d'éviter les pièges redoutables de l'utilisation de vastes corpus de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) issues des médias sociaux (L'expression « médias sociaux » recouvre les différentes activités qui intègrent la technologie, l'interaction sociale, et la création de contenu. Andreas Kaplan et...), selon des informaticiens de l'Université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa transmission (études supérieures). Aux...) McGill, à Montréal (Montréal est à la fois région administrative et métropole du Québec[2]. Cette grande agglomération canadienne constitue un centre majeur du commerce, de l'industrie, de la culture, de la finance et des affaires...), et de l'Université Carnegie Mellon, à Pittsburgh.

Ces résultats erronés peuvent avoir de lourdes conséquences. En effet, chaque année (Une année est une unité de temps exprimant la durée entre deux occurrences d'un évènement lié à la révolution de la Terre autour du Soleil.), des milliers d'articles de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche scientifique désigne...) reposent maintenant sur les données issues des médias (On nomme média un moyen impersonnel de diffusion d'informations (comme la presse, la radio, la télévision), utilisé pour communiquer. Les médias permettent de diffuser une information vers un grand nombre d'individus sans...) sociaux. "Bon nombre de ces articles sont utilisés par le public, l'industrie et le gouvernement pour motiver et justifier des décisions et des investissements", affirme Derek Ruths, professeur adjoint à l'École d'informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport...) de l'Université McGill.

Dans un article publié dans le numéro du 28 novembre 2014 de la revue scientifique (Un scientifique est une personne qui se consacre à l'étude d'une science ou des sciences et qui se consacre à l'étude d'un domaine avec la rigueur et les méthodes scientifiques.) Science, Derek Ruths et Jürgen Pfeffer, de l'Institut (Un institut est une organisation permanente créée dans un certain but. C'est habituellement une institution de recherche. Par exemple, le Perimeter Institute for Theoretical...) de recherche logicielle de l'Université Carnegie Mellon, font ressortir plusieurs problèmes associés à l'utilisation de données issues des médias sociaux - et proposent des stratégies permettant de les surmonter. Ils mentionnent notamment les problèmes suivants:

- les diverses plateformes de médias sociaux attirent différents types d'utilisateurs. Pinterest, par exemple, intéresse surtout les femmes de 25 à 34 ans, mais les chercheurs corrigent rarement l'image biaisée que ces échantillons peuvent donner;

- les sources de données accessibles publiquement reflètent rarement l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) des données des médias sociaux, et les chercheurs ignorent généralement quand et comment les médias sociaux filtrent leurs flux (Le mot flux (du latin fluxus, écoulement) désigne en général un ensemble d'éléments (informations / données, énergie, matière, ...) évoluant dans un sens commun. Plus précisément le terme est...) de données;

- la conception des plateformes de médias sociaux peut dicter la façon dont les utilisateurs se comportent et, par conséquent, le type de comportements qu'il est possible de mesurer. Ainsi, sur Facebook (Facebook est un réseau social créé par Mark Zuckerberg et destiné à rassembler des personnes proches ou inconnues. Depuis décembre 2009,...), l'absence d'un bouton "je n'aime pas" rend plus difficile la détection de réactions négatives au contenu que la présence d'un bouton "j'aime" témoignant de réactions positives;

- un grand nombre de polluposteurs ("spammers") et de bots, qui se font passer (Le genre Passer a été créé par le zoologiste français Mathurin Jacques Brisson (1723-1806) en 1760.) pour des utilisateurs normaux sur les médias sociaux, sont intégrés par erreur à de nombreuses mesures et prédictions du comportement humain;

- les chercheurs font souvent état de leurs résultats pour des groupes d'utilisateurs, de sujets et d'événements faciles à classifier, donnant ainsi l'illusion que les nouvelles méthodes sont plus exactes qu'elles ne le sont en réalité. Ainsi, les efforts visant à déterminer l'orientation (Au sens littéral, l'orientation désigne ou matérialise la direction de l'Orient (lever du soleil à l'équinoxe) et des points cardinaux (nord de la boussole) ;) politique d'utilisateurs de Twitter (Twitter est un outil de réseau social et de microblogage qui permet à l’utilisateur d’envoyer gratuitement des messages brefs, appelés tweets (« gazouillis »),...) ne sont exacts qu' 65 % dans le cas des utilisateurs types, et ce, même si certaines études (basées sur des utilisateurs politiquement actifs) ont fait état d'une exactitude de 90 %.

Selon Derek Ruths et Jürgen Pfeffer, des solutions bien connues à bon nombre de ces problèmes ont déjà été trouvées par des disciplines telles que l'épidémiologie, la statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une...) et l'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs culturelles, par l'observation, l'imitation, l'essai,...) machine. "Ces problèmes ont ceci en commun que les chercheurs doivent savoir exactement ce qu'ils analysent réellement lorsqu'ils travaillent à l'aide de données issues des médias sociaux", affirme Derek Ruths.

Les spécialistes des sciences sociales ont déjà affiné leurs normes et leurs techniques afin de relever ce type de défi avec succès. "La célèbre manchette de 1948 "Dewey défait Truman" vient du fait que les sondages téléphoniques avaient sous-échantillonné les partisans de Truman dans la population générale", explique le professeur Ruths. "Or, plutôt que de discréditer de façon permanente le recours aux sondages, cette erreur monumentale a mené aux méthodes de sondage ( Un sondage peut désigner une technique d'exploration locale d'un milieu particulier. Un sondage peut également être une méthode statistique d'analyse d'une population...) plus évoluées et plus exactes, ainsi qu'aux normes plus strictes que nous connaissons aujourd'hui. Nous en sommes maintenant à un tournant technologique semblable. En nous attaquant à ces problèmes, nous pourrons mesurer pleinement les avantages que comporte la recherche fondée sur les données issues des médias sociaux."

Commentez et débattez de cette actualité sur notre forum Techno-Science.net. Vous pouvez également partager cette actualité sur Facebook, Twitter et les autres réseaux sociaux.
Icone partage sur Facebook Icone partage sur Twitter Partager sur Messenger Icone partage sur Delicious Icone partage sur Myspace Flux RSS
Source: Université McGill
 
Archives des News
  Juillet 2018
  Juin 2018
  Mai 2018
  Avril 2018
  Toutes les archives

Jeudi 19 Juillet 2018 à 00:00:10 - Physique - 0 commentaire
» ISOLDE produit des isotopes du chrome
Page générée en 0.423 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - Informations légales