Exploration de données - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

L’exploration de données (terme recommandé en France par la DGLFLF, et au Canada par l'OQLF), aussi connue sous les noms fouille de données, data mining (forage de données) ou encore extraction de connaissances à partir de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...) (ECD en français, KDD en anglais), a pour objet (De manière générale, le mot objet (du latin objectum, 1361) désigne une entité définie dans...) l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. L'utilisation industrielle ou opérationnelle de ce savoir dans le monde (Le mot monde peut désigner :) professionnel permet de résoudre des problématiques très diverses, allant de la gestion de relation client (Le mot client a plusieurs acceptations :) à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web.

Le data mining fait suite - dans l'escalade de l'exploitation des données de l'entreprise - à l'informatique décisionnelle (L’informatique décisionnelle (en anglais : DSS pour Decision Support System ou...). Celle-ci permet de constater un fait (e.g le chiffre (Un chiffre est un symbole utilisé pour représenter les nombres.) d'affaire) et de l'expliquer (le chiffre d'affaire par produits), tandis que le data mining permet de classer les faits et de les prévoir dans une certaine mesure (quel sera le chiffre d'affaire dans un mois ?).

Un exemple d'exploration de données (L’exploration de données (terme recommandé en France par la DGLFLF, et au Canada...)

Histoire

Collecter les données, les Analyser et les Présenter au client.

L'extraction de modèles à partir d'un grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de données n'est pas un phénomène récent. Pour qu'il y ait extraction de modèle il faut qu'il y ait collecte de données. En Chine on prête à l'Empereur Tang, Yao, la volonté de recenser les récoltes en 2238 avant J.-C. ; en Egypte le Pharaon Amasis organise le recensement (Le recensement est une opération statistique de dénombrement d'une population.) de sa population au cinquième siècle (Un siècle est maintenant une période de cent années. Le mot vient du latin saeculum, i, qui...) avant J.-C.. Ce n'est qu'au XVIIIe siècle qu'on commence à vouloir analyser les données pour en rechercher des caractéristiques communes. En 1763, Thomas Bayes montra qu'on peut déterminer, non seulement des probabilités à partir des observations (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les...) issues d’une expérience, mais aussi les paramètres relatifs à ces probabilités. Présenté dans le cas particulier d'une loi binomiale (En mathématiques, une loi binomiale de paramètres n et p est une loi de probabilité...) ce résultat fut étendu indépendamment par Laplace, conduisant à une formulation (La formulation est une activité industrielle consistant à fabriquer des produits...) générale du théorème de Bayes (Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du...). Legendre publia en 1805 un essai sur la méthode des moindres carrés (La méthode des moindres carrés, indépendamment élaborée par Legendre en...) qui permet de comparer un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) de données à un modèle mathématique (Un modèle mathématique est une traduction de la réalité pour pouvoir lui appliquer les outils,...).

Dans les années 1920, Ronald Fisher mit au point (Graphie) l'analyse de la variance (L'analyse de la variance (terme souvent abrégé par le terme anglais ANOVA : ANalysis...) comme outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son...) pour son projet (Un projet est un engagement irréversible de résultat incertain, non reproductible a...) d'inférence statistique (L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à...) médicale. Plus tard, dans les années 1950, l'apparition du calculateur et des techniques de calcul sur ordinateur (Un ordinateur est une machine dotée d'une unité de traitement lui permettant...) tels que la segmentation (De manière générale, le mot segmentation désigne l'action de segmenter, le fait de se segmenter...), les réseaux de neurones et les algorithmes génétiques, dans les années 1960, les arbres de décisions, et dans les années 1980, les SVM, permirent aux chercheurs d'exploiter et de découvrir des modèles de plus en plus précis. En France, Jean-Paul Benzécri inventa l'analyse factorielle (En mathématiques, la factorielle d'un entier naturel n, notée n!, ce qui se lit soit...) dans les années 1960.

Aujourd'hui, une entreprise comme Amazon.com se sert de tous ces outils pour proposer à ses clients d'autres achats qui seraient susceptibles de les intéresser.

Page générée en 0.110 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique