Le mot « Data » et ses multiples épithètes
« Data analysis », « data mining », « data science », etc. Les épithètes qui qualifient le mot « data » sont nombreux. Lorsque nous parlons d’exploitation de données, il est fréquent de voir ces 3 terminologies. En parcourant la littérature, nous pouvons résumer le data mining et la data science de la façon suivante :
-
Le data mining a pour objectif d’exploiter les données par des méthodes automatiques pour identifier des relations cachées et/ou encore inconnues dans de très grands jeux de données. Cette discipline a connu une explosion dans les années 90 avec notamment le projet Génome Humain ;
-
La data science est un « concept synthétique pour unifier les statistiques, l’analyse des données et leurs méthodes connexes, mais comprend également ses résultats » (Tanaka 1996). En plus de l’analyse de données, la data science inclut des approches d’apprentissage (machine learning) permettant des « prédictions » et plus uniquement un conseil dans la prise de décisions.
Finalement, ces 3 terminologies sont imbriquées entre elles comme le montre la Figure 1.