Analyse des données - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données. On peut également chercher à classer les données en différents sous groupes plus homogènes: un exemple d'utilisation d'un tel classement serait celui de la reconnaissance automatique des pourriels.

Un type d'analyse des données, ou, plus précisément ici, de data profiling, serait l'analyse simultanée de l’âge, du sexe et de la catégorie socioprofessionnelle des joueurs de golf; la bibliométrie fait également largement appel à l'analyse de la publication des revues scientifiques afin de calculer, par exemple, leur « facteur d'impact ».

Dans l'acception française, la terminologie analyse des données désigne un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Elle comprend principalement :

  • L’analyse en composantes principales (ACP), utilisée pour des données quantitatives.
  • L’analyse factorielle discriminante (AFD) ou analyse discriminante qui permet d’identifier des groupes homogènes au sein de la population du point de vue des variables étudiées,
  • L'analyse factorielle des correspondances (AFC), utilisée pour des données qualitatives (tableau d’association).
  • La classification automatique.
  • L’analyse en composantes indépendantes (ACI).
  • L'iconographie des corrélations, pour des données qualitatives et quantitatives.

Ces méthodes permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille.

Pour cela, il est très important de bien estimer les corrélations entre les variables que l’on étudie. On a alors souvent recours à la matrice des corrélations (ou la matrice de variance-covariance) entre les variables.

Les pères de l’analyse des données sont :

  • Jean-Paul Benzécri
  • John Tukey (sous le terme de Exploratory Data Analysis, ou EDA)
  • Chikio Hayashi (sous le terme de Data Sciences)

De nombreux logiciels permettent d'effectuer de l'analyse des données directe ou indirecte.

Page générée en 0.116 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise