Big Data
Une définition du big data
Le big data (littéralement « grosses données » en anglais), les mégadonnées ou les données massives, « désigne des ensembles de données devenus si volumineux qu’ils dépassent l’intuition et les capacités humaines d’analyse et même celles des outils informatiques classiques de gestion de base de données ou de l’information » (Wikipédia).
Les dimensions du big data
Le big data ne repose pas uniquement sur la taille totale des données mais plus généralement sur les 3 V de Gartner (Laney 2001):
- Volume – Il est courant de dire que le volume doit être suffisamment important pour qu’un seul noeud de calcul ne soit pas capable de réaliser les analyses dans un temps « raisonnable ». En résumé, nous ne pouvons pas parler de big data si l’ensemble des analyses est réalisable dans un temps raisonnable sur un ordinateur de bureau ;
- Vitesse / Vélocité – Les données doivent être accessibles rapidement. Un des meilleurs exemples est celui de la finance. La vitesse d’obtention des données permet de gagner ou non un marché. A notre échelle, il est intéressant de connaitre les stocks d’un magasin avant de se déplacer ;
- Variété (diversité) – Les données doivent être complexes et très hétérogènes. Elles peuvent être de différents formats et de différents types (texte, image, son). En biologie, nous pouvons retrouver cette diversité à travers des images de microscopies, des enregistrements du chant des baleines à bosse, ou encore des spectres de masses.