Plan du site  
pixel
pixel

Articles - Étudiants SUPINFO

Le Big Data

Par Mathieu ROSSETTO Publié le 12/05/2019 à 13:48:16 Noter cet article:
(0 votes)
Avis favorable du comité de lecture

Présentation

Le Big Data est la data science d‘analyser des données massives, des grosses quantités de données devenues tellement volumineuses qu’elles dépassent les capacités humaines et même les capacités technologiques des moteurs de gestion de bases de données pour les analyser, les stocker et les traiter.

Le Big data repose sur trois grands principes des 3V de Gartner : Volume, Vélocité et Variété.

Le premier principe du volume se définit comme la dimension de stockage de la donnée, on la compte en octets (Go, To, Po….).

Le deuxième principe est la vélocité, c’est-à-dire la fréquence avec laquelle ces données massives arrivent dans la vie de tous les jours.

Le troisième, c’est la variété : Parce que ces différentes données peuvent être de différentes sortes : Des vidéos YouTube, des publications sur Facebook, sur Twitter, les différents mails envoyés, une photo prise par un appareil photo et stockée dans le cloud, etc.

Architecture du Big Data

La première notation à savoir pour le Big Data est l'intégration des données. Ensuite, il y a le stockage des données massives et volumineuses dans lequel il faut faire très attention à réduire les coûts de stockage au sein de l'entreprise, ainsi que le traitement de ces données (c'est dans cette partie là qu'intervient le machine learning, on en reparlera plus tard.). Il faut ensuite sécuriser le cluster Hadoop (Règle des 3A: Authentification, Authorization, et Accounting) et y faire différentes opérations qui consistent à programmer des ressources, à surveiller le fonctionnement du traitement et du stockage des différentes données, et à administer le système Hadoop.

Différences avec la B.I

La BI (informatique décisionnelle) n’est pas du Big data. D’une part en BI, les données sont structurées, alors qu’en big data, les données ne sont pas nécessairement structurées. De plus, la BI est la science d’interpréter les données afin d’en faire des statistiques : mesurer des tendances, voir les goûts des utilisateurs Facebook, etc. alors quele Big Data est bien la science de stockent et de traiter toutes ces données devenues tellement massives qu’elles dépassent les intuitions des capacités humaines et technologiques.

Fonctionnement du Big Data

Comment on analyse et on traite toutes ces données ?

Le principe est le suivant : Etant donné qu’un ordinateur ne peut pas gérer autant de données, on utilise des cluster.

Qu’est-ce qu’un Cluster ?

? C’est une grappe (un ensemble) de serveurs disposés sur une baie. On répartit alors la tache de traitement de ces données et de stockage de ces données parmi différents noeuds (le nœud est un serveur).

C’est pour cela qu’on utilise du Cloud Computing et des système de fichiers distribués pour faire du Big Data.

Le système de fichiers

Le système de fichiers du Big data s’appelle HDFS. (Hadoop Distributed File System). A l’inverse de HFS+, de APFS, de NTFS et de FAT32, HDFS, comme son nom l’indique, est un système de fichiers qui fonctionne à travers différents nœuds. C’est pour cela qu’on l’appelle « système distribué ». Plus qu’un système de fichiers, on peut dire que HDFS fonctionne comme un Data Warehouse, à vrai dir,e un entrepot de données.

Un entrepôt de données est une base de données à part destiné à faire du traitement de donnée.

De plus, pour éviter le risque de perte de donnée, chaque bloc HDFS est « sauvegardé » sur plusieurs différents nœuds, afin que si l’un des serveurs tombe en panne, aucune donnée ou aucun bloc de donnée ne soit corrompu. Le bloc de données constitue la donnée en elle-même.

A titre informatif, un bloc HDFS est de 64 Mo.

Hadoop

Apache Hadoop est l’outil ultime qui permet de manipuler les différents données pour faire du Big Data. C’est un logiciel open-source écrit en Java et gratuit. Il permet la création d’applications distribués grâce à MapReduce.

Hadoop a 3 modes de fonctionnement :

Local: Hadoop fonctionne sur une seule JVM sur une seule machine

Pseudo-distribué: Hadoop tourne sur plusieurs JVM de plusieurs machines.

Distribué: C’est le mode de fonctionnement d’un veritable cluster Hadoop. Le système tourne sur plusieurs nœuds d’un cluster (donc sur plusieurs serveurs en même temps).

MapReduce

MapReduce est un outil Hadoop qui permet le calcul en parallèle sur différents nœuds afin que les différentes données massives soient traités plus rapidement et de façon à ce qu’il n’y ai aucune perte de donnée grâce au système de fichiers distribué.

Le principe est le suivant : On lui donne différentes données en entrée, MapReduce va les découper en plusieurs fragments, il va les trier, les compter, les mélanger puis donnée quelque chose de plus factorisé en sortie.

Exemple : On lui passe en entrée une maison, une place de parking, un chat, un cheval et une voiture en en entrée, il va trier les biens immobiliers ensemble, les animaux ensemble et les véhicules ensemble, les rassembler, les compter, et au final, il va dire qu’il y a 3 biens immobiliers, 2 animaux et 1 seul véhicule afin que son traitement soit plus rapide et beaucoup plus efficace.

Apache Pig

Pig est une technologie Hadoop qui permet de créer des applications MapReduce. On peut utiliser le langage de programmation Pig Latin, le Shell ou un langage de script pour créer ces différentes applications.

Les deux classes Java nécessaires, à importer pour pouvoir utiliser un script Pig sont PigRunner et PigServer.

Le machine learning

Le machine learning est une technologie qui permet à un outil informatique (ordinateur portable, smartphone, tablette tactile, etc.) d’apprendre de ses expériences. Prenons un exemple : La machine va dans un parc analyser les différents arbres et va enregistrer la hauteur de chaque arbre et la largeur de chaque tronc. Si on trace un graphique qui représente sur chaque arbre la largeur du tronc en fonction de la hauteur de l’arbre, on ontient un courbe presque digne d’une fonction linéaire. La machine apprend donc « artificiellement » que si on demande de connaitre la hauteur d’un nouvel arbre d’une même espèce dans le parc, et qu’on lui donne le diamètre du tronc, elle pourra en identifier par « machine learning » la taille de l’arbre grâce à son « expérience personnelle ».

On utilise beaucoup Hadoop pour faire du machine learning.

Divers

Apache Oozie est une technologie Hadoop qui permet d’ordonnancer les différents flux.

Apache Flume est destiné à la collecte des différents fichiers log Hadoop.

Apache Impala est le moteur de gestion de bases de données destinés aux cluster Hadoop.

Apache Impala est le moteur de gestion de bases de données destinés aux cluster Hadoop. Les tables sont appelés HCatalog et les bases de données sont appelés HBase.

Conclusion

Le Big Data est une science et un domaine de l’informatique en plein expansion. De plus en plus d’entreprises l’utilisent.

A propos de SUPINFO | Contacts & adresses | Enseigner à SUPINFO | Presse | Conditions d'utilisation & Copyright | Respect de la vie privée | Investir
Logo de la société Cisco, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société IBM, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sun-Oracle, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Apple, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sybase, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Novell, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Intel, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Accenture, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société SAP, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Prometric, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Toeic, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo du IT Academy Program par Microsoft, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management

SUPINFO International University
Ecole d'Informatique - IT School
École Supérieure d'Informatique de Paris, leader en France
La Grande Ecole de l'informatique, du numérique et du management
Fondée en 1965, reconnue par l'État. Titre Bac+5 certifié au niveau I.
SUPINFO International University is globally operated by EDUCINVEST Belgium - Avenue Louise, 534 - 1050 Brussels