Depuis maintenant quelques années, le volume de données numériques ne cesse d’augmenter. Cette multiplication des données est due à la numérisation grandissante de tous les domaines du web et de l’économie entre autres. L’explosion quantitative des données numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde.
Il s’agit de découvrir de nouveaux ordres de grandeur concernant la collecte, la recherche, le partage, le stockage, l’analyse et la présentation des données. Ainsi est né le « Big Data ».
Qui n’a jamais entendu parler de « data » aujourd’hui ? Le développement d’internet et des médias sociaux participent à la multiplication des données produites sur internet et de nouveaux outils d’analyse apparaissent.
Définition
Les « Big Data » désignent l’ensemble des données numériques produites par l’utilisation des nouvelles technologies à des fins personnelles ou professionnelles.
Littéralement, ce terme signifie méga données, grosses données ou encore données massives. Il désigne un ensemble très volumineux de données produites sur internet qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut tout simplement pas les gérer.
Cela regroupe :
- les données d’entreprise (courriels, documents, bases de données, historiques…)
- des contenus publiés sur le web (images, vidéos, sons, textes) et des échanges sur les réseaux sociaux,
- des transactions de commerce électronique ainsi que des données issues de capteurs,
- des données transmises par les objets connectés
- des données de géolocalisation, etc.
Le Cloud et les objets connectés dont on a évoqué dans nos articles précédents ont une grande part de responsabilité dans la révolution « Big Data ».
Le « Big Data » ne renvoie pas qu’aux données en tant que telles, mais aussi aux technologies, aux stratégies, aux techniques utilisées pour gérer de gros volumes de données.
Historique
Bien que le concept de « Big Data » soit relativement nouveau, les grands ensembles de données remontent aux années 60 et 70, lorsque le monde des données commençait à peine à démarrer avec les premiers « datacenters » et le développement de la base de données relationnelle.
L’expression « Big Data » fait finalement son apparition en octobre 1997 dans la bibliothèque numérique de l’Association for Computing Machinery (ou ACM), au sein d’articles scientifiques qui pointent du doigt les défis technologiques à visualiser les « grands ensembles de données ». Le « Big Data » est né, et avec lui ses nombreux défis.
En 2005, on assista à une prise de conscience de la quantité de données que les utilisateurs généraient sur Facebook, YouTube et autres services en ligne. Avec l’avènement de l’Internet of Things (IoT), de plus en plus d’objets et de terminaux sont connectés à Internet, collectant des données sur les habitudes d’utilisation des clients et les performances des produits.
Caractéristiques du « Big Data » : les 5 V
En 2001, Doug Laney a donné une définition du « Big Data ». Selon lui, le « Big Data » peut se comprendre à partir de trois notions ayant tous la particularité de commencer par la lettre « V » : c’est la théorie des 3 V :
- Le volume, soit la taille et la quantité exceptionnelle des données dont l’origine peut être très diverse ;
- La vitesse (ou vélocité) à laquelle les données sont produites, reçues et éventuellement traitées de façon continue et en temps réel.
- La variété, il s’agir de données variées de différents types (une image, une vidéo, un tweet, un like, une simple trace laissée sur un site internet, les fameux cookies, ou par un de vos objets connectés sont des datas).
Deux autres « V » ont vu le jour ces dernières années :
- La Véracité : le « Big Data » pose le problème de la véracité des données. Sont-elles pertinentes, sont-elles réelles ? Quelle est la véracité de vos données et leur fiabilité ? La nécessité de vérifier la crédibilité de la source de données et la qualité du contenu afin de pouvoir exploiter ces données.
- La valeur ajoutée par ces données. Savoir quelles valeurs ajoutées apportent ces données. Le tri des données est indispensable.
Comment fonctionne le « Big Data »
Le « Big Data » repose sur le principe selon lequel, plus on a d’informations sur une chose ou une situation, plus on peut en tirer des informations qui permettront de prendre une décision et prédire ce qui se passera dans le futur.
Dans la plupart des cas, ce processus est entièrement automatisé : nous disposons d’outils très avancés qui exécutent des millions de simulations pour nous donner le meilleur résultat possible.
Le « Big Data » permet de relever un immense défi technologique : stocker une grande quantité de données provenant de différents canaux sur un immense disque dur, facilement accessibles depuis les quatre coins de la planète. Des données stockées en lieu sûr et récupérables à tout moment en cas d’incident quelconque.
Pour y parvenir, les fichiers sont découpés en plusieurs fragments nommés « chunks ». Ces fragments sont ensuite répartis sur plusieurs ordinateurs. Les fichiers sont ainsi vus comme un ensemble de «morceaux » existant en parallèle à grande échelle à plusieurs endroits judicieusement répartis sur plusieurs machines ; avec de nombreux chemins pour les recomposer.
Une panne survient ? Une autre machine vient prendre le relais en empruntant un autre chemin. Ainsi, les différentes pièces du puzzle restent disponibles en permanence, et peuvent être assemblées d’une façon ou d’une autre.
Vous devez aussi connaître les trois actions principales qui se cachent derrière.
- Intégration
Le « Big Data » se compose de données recueillies à partir de nombreuses sources et étant donné la quantité énorme d’informations, il faut trouver de nouvelles stratégies et technologies pour les traiter. Vous devrez recevoir les données, les traiter et les formater dans un format adapté aux besoins de votre entreprise et que vos clients comprennent.
- Gestion
Vous aurez besoin d’un endroit où stocker les gros volumes de données. Votre solution de stockage peut se trouver dans le cloud, sur site ou les deux. Vous pouvez également choisir le format dans lequel vos données seront stockées afin qu’elles soient disponibles en temps réel à la demande.
- Analyse
Une fois que vous avez reçu et stocké les données, vous devez les analyser pour pouvoir les utiliser. Explorez vos données et utilisez-les pour prendre des décisions importantes ou utilisez-les pour partager vos recherches.
« Big Data » – À quoi ça sert
Le « Big Data » est appliqué dans tous les domaines liés au Web. Voici quelques domaines qui tirent profit du « Big Data » :
- La recherche médicale : grâce à l’évaluation des données massives, les médecins peuvent trouver de meilleures solutions de thérapie et de traitement pour leurs patients.
- L’industrie : grâce à l’utilisation des données des machines de la chaîne de production par exemple, les entreprises peuvent augmenter l’efficacité de leur production et travailler de manière plus durable. Les facteurs qui permettent de prédire les problèmes mécaniques sont souvent dissimulés dans des ensembles de données structurées : l’année d’équipement, l’année de fabrication, le modèle du produit. Analyser toutes ces données, qui constituent autant d’indicateurs, permet d’anticiper les pannes et la survenue de problèmes.
- L’économie : il permet aux entreprises de mieux connaître leurs clients et de leur proposer des offres toujours plus adaptées à leurs besoins. le « Big Data » est utilisé dans le marketing pour mieux cibler les clients. Une entreprise comme Netflix utilise le « Big Data » pour anticiper la demande de ses clients et proposer aux clients des nouveaux produits et services basés sur les attributs des produits et services consommés par le passé.
- L’énergie : les données sur la consommation d’énergie permettent à long terme d’adapter l’offre aux besoins des utilisateurs dans le but de rendre l’approvisionnement énergétique plus responsable et durable.
- Le secteur bancaire : le « Big Data » permet à une banque de proposer des services adaptés au profil de ses clients ou de mieux anticiper ses risques.
Médiatrice NKURUNZIZA