Déceler les tendances à partir des grandes bases de données

Publié par Adrien le 02/01/2012 à 12:00
Source: Science via EurekAlert!
Restez toujours informé: suivez-nous sur Google Actualités (icone ☆)

Quelles sont les statistiques pour les résultats les plus en rapport avec le salaire d'un athlète ? Quels sont les facteurs les plus importants pour la santé humaine à travers la planète ? Une nouvelle approche statistique peut aider à répondre à ces questions en dévoilant des relations inattendues au sein d'énormes bases de données.

De telles bases sont de plus en plus courantes dans de nombreux domaines, de la génétique à la physique, en passant par l'économie. Elles ont des centaines de variables et le nombre de liens potentiels entre ces données est bien trop grand pour être étudié manuellement. David Reshef, Yakir Reshef et leurs collègues décrivent dans leur étude une puissante méthode statistique qui peut identifier les liens potentiels importants existant dans des recueils aussi massifs de données.

La pierre d'angle de la méthode est le MIC, ou "coefficient d'information maximal", une statistique qui peut détecter une gamme extrêmement large de types de relations dans des données tout en assignant des scores similaires dans la détection de relations également "à haut bruit" de différents types. Les chercheurs peuvent ainsi l'utiliser pour détecter des configurations complexes dues à de multiples facteurs sans connaître au préalable les relations qu'ils recherchent. Le MIC est fondé sur l'idée que si une relation existe entre deux variables, il doit y avoir un moyen de dessiner une grille avec les points éparpillés de ces variables de sorte que la plupart des données se concentrent dans quelques cases de cette grille. En recherchant la grille la mieux adaptée, un ordinateur peut calculer le MIC ainsi qu'une famille de statistiques associées qui peuvent servir à identifier et à caractériser les relations. Cette famille est appelée "exploration maximale non-paramétrique de l'information" ou MINE.

Les auteurs ont comparé MINE avec d'autres approches et montré qu'elle était mieux adaptée à l'exploration rapide de données. Ils l'ont utilisé pour révéler des relations familières et auparavant inconnues dans quatre exemples d'ensemble de données portant sur la santé publique mondiale, des résultats de baseball, l'expression des gènes chez la levure et sur les différents niveaux de certaines bactéries dans l'intestin humain. Dans un article Perspectives associé, Terry Speed commente cette étude et aborde l'histoire des coefficients de corrélation, en commençant par celui inventé en 1888 par le demi-cousin de Darwin, Francis Galton.
Page générée en 0.223 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise