data
Techniques et Outils
du Data Mining
Qu'est-ce que le Data Mining?
Le Data Mining (aussi connu sous le nom de Knowledge Discovery in Databases
ou KDD) consiste à rechercher les relations et la structure
générale de larges bases de données enfouies dans
la masse de l'information. Ces relations représentent une
connaissance valorisable de la base de données et de ses composantes
et si la base est fiable, on peut également obtenir une image très
précise des objets décrits. Le terme de Data Mining regroupe
l'ensemble des technologies avancées susceptibles d'analyser l'information
à partir d'un entrepôt de données (Datawarehouse)
pour en tirer des tendances, pour segmenter l'information ou pour trouver
des corrélations dans les données.
Là où les outils d'aide à la décision
classiques, comme les outils d'analyse multidimensionnelle ou les requêteurs
SQL, répondent aux demandes de l'utilisateur et lui présentent
les informations qu'il attend, les outils de Data Mining vont générer
des informations riches en explorant les données, notamment
des données historiques, découvrir des modèles implicites,
et remonter de l'information non prévisible à l'utilisateur.
On distingue différents types de recherche en Data Mining.
Certains outils peuvent étudier les éléments qui ont
un impact sur une variable donnée (par exemple, les caractéristiques
démographiques des individus qui répondent à un mailing).
D'autres permettent de segmenter la population en différentes classes,
de regrouper les individus similaires ou de détecter les comportements
atypiques.
On peut alors se demander ce qu'apporte le Data Mining aux méthodes
inférentielles plus classiques du type Analyse de Données
.
Définition du Data Warehouse
La traduction litérale de Data WareHouse est "entrepôt
de données". Ce mot désigne à la fois la base de données
dans laquelle est stocké l'ensemble des informations mais également
l'ensemble du système d'information décisionnel.
La définition classique du Data Warehouse donnée par
Bill Inmon dans son ouvrage de référence Using the Data Warehouse
est la suivante :
«Le Data Warehouse est une collection
de données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le support d’un
processus d’aide à la décision.»
Le Data Warehouse est organisé autour des sujets majeurs de
l’entreprise, contrairement aux données des systèmes
de production généralement organisées par processus
fonctionnel. L’intérêt de cette organisation est de disposer
de l’ensemble des informations utiles sur un sujet le plus souvent transversal
aux structures fonctionnelles et organisationnelles de l’entreprise.
Sommaire