L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données. On peut également chercher à classer les données en différents sous groupes plus homogènes: un exemple d'utilisation d'un tel classement serait celui de la reconnaissance automatique des pourriels.
Un type d'analyse des données, ou, plus précisément ici, de data profiling, serait l'analyse simultanée de l’âge, du sexe et de la catégorie socioprofessionnelle des joueurs de golf; la bibliométrie fait également largement appel à l'analyse de la publication des revues scientifiques afin de calculer, par exemple, leur « facteur d'impact ».
Dans l'acception française, la terminologie analyse des données désigne un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée. Elle comprend principalement :
Ces méthodes permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille.
Pour cela, il est très important de bien estimer les corrélations entre les variables que l’on étudie. On a alors souvent recours à la matrice des corrélations (ou la matrice de variance-covariance) entre les variables.
Les pères de l’analyse des données sont :
De nombreux logiciels permettent d'effectuer de l'analyse des données directe ou indirecte.