Plan du site  
pixel
pixel

Articles - Étudiants SUPINFO

Le Big Data : Qu'est ce que c'est ?

Par Denis TURCAN Publié le 09/10/2019 à 13:37:01 Noter cet article:
(0 votes)
Avis favorable du comité de lecture

Introduction

Depuis quelques années, avec l'utilisation toujours plus intensive des nouvelles technologies comme les smartphones, les tablettes... Et des nouveaux services tels que les réseaux sociaux ou les messageries instantanées comme WhatsApp, Telegram, Instagram... le volume de données ne cesse d'augmenter.

En effet, nous avons de plus en plus la capacité de partager nos diverses photos, d'échanger des fichiers de plus en plus volumineux au travers des différents services qui nous sont proposés... Mais nous partageons aussi beaucoup nos données personnelles sur de nombreux sites.

De ce fait, le Big Data est né. Cependant, depuis l’affaire concernant l'espionnage divulguée par Edward Snowden, les utilisateurs ont prit conscience de l'importance de leur données personnelles et de l'importance de la protection de ceux-ci, et on peut lire un peu partout des articles négatifs par rapport au Big Data.

Pourtant, ces données sont importantes pour divers analyses. C'est pour cela qu'il est important de bien comprendre la notion de Big Data.

Le Big Data

Explications

Le Big Data (Que l'on peut traduire par : données volumineuses, données massives...) est un ensemble de données devenues si volumineuses que l'on a commencé à réfléchir à traiter ces données avec d'autres moyens qu'avec nos outils informatique classiques. Ces données, provenant de différentes sources, doivent répondre à trois critères pour être considéré comme "Big Data" :

Ce sont les 3 V :

  • Le Volume

  • La Variété

  • La Vélocité

    Le Big Data est donc une concentration d'informations mais également la méthode de traitement et d'utilisation de ces informations.

L'importance du Big Data

Le Big Data a le potentiel de fournir aux entreprises des informations précieuses sur leurs clients, qui peuvent être utilisées pour améliorer le marketing et pour augmenter la satisfaction et l'engagement de ceux-ci.

Les entreprises utilisant le Big Data disposent d'un avantage concurrentiel par rapport aux entreprises qui ne l'utilisent pas car elles sont en mesure de prendre des décisions commerciales résultant d'analyses concrète de données issues de leur clients.

Le fait d'avoir la capacité d'analyse de données antérieurs et en temps réel permet d'être en constante amélioration et évolution par rapport aux différents services proposés.

L'utilisation de ces technologies permettent d'être préparés et de mieux comprendre les besoins et les attentes des clients.

Où s'en sert-on?

Le Big Data est utilisé dans les domaines qui touchent à l'informatique.

Vous avez par exemple déjà dû voir sur des sites marchands des formulations du type "Les clients qui ont acheté ... Ont également acheté ...". Cette formulation vient de l'analyse de millions de données issues des ventes du site et il en résulte donc des recommandations de produits.

Mais les secteurs d'utilisation du Big Data sont variés :

  • L'économie : Cela permet aux entreprises de proposer des offres adaptées à leur clients

  • Le marketing : Cela permet de mieux cibler les clients et donc d'augmenter la rentabilité

  • Les banques : Permet d'adapter leur service et la mise à disposition des crédits...

  • Et bien d'autres ...

Exemples d'outils permettant l'analyse des données

HADOOP

Hadoop est un framework logiciel développé par Apache (et donc open source) qui permet le traitement de grands ensembles de données sur des centaines d'ordinateurs opérant parallèlement.

Chacune de ces machines peut offrir un calcul et un stockage local. Plutôt que de compter sur du matériel pour offrir une haute disponibilité, la bibliothèque elle-même est conçue pour détecter et gérer les défaillances au niveau de la couche application, fournissant ainsi de la HA (Haute disponibilité) sur l'ensemble de nos machines en cas de défaillance.

Hadoop MapReduce

MapReduce est un modèle de programmation créé par Google pour le traitement et la génération de larges ensembles de données sur des clusters de machines. C'est un composant de Hadoop que l'on vient de voir juste avant.

Ce framework propose deux fonctionnalités principales : Il répartit la charge de travail sur les différents nœuds des clusters, puis les organise et réunit chaque information pour n'en ressortir qu'une seule réponse à une requête.

STORM

Storm est un autre outil développé par Apache (Open Source également). Il s’agit d’un système de traitement de données en temps réel avec Hadoop.

Storm est adapté à tous les langages de programmation, et permet le traitement des données même si un nœud connecté du cluster ne fonctionne plus.

Cet outil est un bon choix lorsque l'on travaille avec du Big Data car il s’intègre bien aux technologies existantes.

CASSANDRA

Cassandra est une base de données appartenant à Apache et initialement créer par Facebook pour répondre à leur besoin d'analyse de base de données.

Cet outil vous donne la possibilité de monitorer de larges ensembles de données répartis sur diverses machines et divers clusters.

Cet outil est utilisé par des géants du web comme Twitter, Reddit... qui ont des données énormes à monitorer et traiter.

OpenRefine

OpenRefine ,anciennement Google Fine et Open source depuis, est un outil permettant de travailler avec des données désordonnées: il permet de nettoyer un ensemble de données et de les transformer d'un format à un autre.

Il permet de garder les données traitées privées en local jusqu'à ce que, éventuellement, nous décidions de les partager.

Cet outil est un outil qui nécessite peu de connaissances techniques et qui est très puissant.

MongoDB

MongoDB est, comme Cassandra, un autre exemple de base de données NoSQL Open Source avec de nombreuses fonctionnalités. De plus, MongoDB est compatible avec une multitudes de langages de programmation.

Il permet, entre autre, de stocker tout type de données que ce soit du texte, des tableaux, des dates... il a une grande flexibilité de configuration, il permet également de stocker nos données en les partitionnant sur plusieurs machines.

C'est une bonne alternative à Cassandra au cas où vous n'aimeriez pas ce dernier.

Data Scientist, métier du Big Data

Le Data Scientist sait maitriser les techniques d'analyse et choisir les meilleurs outils pour avoir les résultats les plus pertinents. Recherche de corrélation ,analyse prospective, modélisation, simulation, data vizualisation... voilà quelques techniques qu'il doit maîtriser. De par la croissance des données, le métier de Data Scientist est amené à se développer.

Ce métier nécessite un bon savoir scientifique, des méthodes d'analyses de données, une bonne maîtrise de la technique informatique et un oeil interéssé sur le business dans tous ses aspects. Le Data Scientist travaille avec les personnes sur le terrain et comprends donc le business. C'est avec et grâce à eux que le métier existe car ils sont à la recherche d'améliorations pour le business.

Il sait qu'il a un but, que la finalité doit être l'exploitation des données et l'analyse de ceux-ci. Il doit donc savoir sélectionner les données et correctement manier les outils afin d'arriver à cette dite finalité.

Les reproches faites au Big Data

Nous avons vu que le Big Data était un outil utilisé par les entreprises pour leur permettre de mieux cerner leur clients. Mais certaines personnes se posent de plus en plus de questions quant à l'utilisation de ceux-ci.

Les reproches qui sont faites au BigData concernent donc la protection des données collectées.

Il est tout à fait possible d’établir des profils d’utilisateurs précis ou de connaître les habitudes de consommation des personnes.

Certains voient cela comme une atteinte à la vie privée. En effet, des acteurs comme Google peuvent vous proposer des produits simplement car vous avez fait une recherche de type "chaussures de ville" et font donc de la publicité ciblée grâce aux données qu'ils collectent sur vous.

Il est important que ceux qui utilisent vos données doivent renseigner aux clients et utilisateurs ce qu'ils en font et comment.

Il est donc légitime de se poser certaines questions sur cette technologie, comme celle de l'utilisation des données.

Cependant, l'utilisation du Big Data reste pertinente à moins d'utiliser ces données dans le respect de la vie privée et avec l'accord des utilisateurs.

Les utilisateurs doivent avoir pleinement conscience que, lorsqu'ils naviguent sur un site web et que celui-ci collecte des données, ces données sont sujette à divers analyses et traitement.

Conclusion

Le Big Data nous permet donc de mieux traiter et analyser nos données toujours plus grandissantes. Cela nous permet également de mieux comprendre l'utilisation que l'on a des différents services mis à notre disposition.

Les avantages sont nombreux et dans différentes branches de métier comme la médecine ou l'économie. Cela nous permet de faire des analyses jamais faites auparavant, avec une échelle beaucoup plus grande et bien plus efficacement qu'avant.

Cependant, il reste le problème sociétale à gérer et les problèmes d'éthique. Il faut d'avantage d'éducation et d'information aux utilisateurs afin de les avertir de la façon dont ces données sont utilisées et traitées.

Sources :

  • https://fr.wikipedia.org/wiki/Big_data

  • https://hadoop.apache.org/

  • http://cassandra.apache.org/

  • http://storm.apache.org/

  • http://openrefine.org/

  • https://www.mongodb.com/

A propos de SUPINFO | Contacts & adresses | Enseigner à SUPINFO | Presse | Conditions d'utilisation & Copyright | Respect de la vie privée | Investir
Logo de la société Cisco, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société IBM, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sun-Oracle, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Apple, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sybase, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Novell, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Intel, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Accenture, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société SAP, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Prometric, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Toeic, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo du IT Academy Program par Microsoft, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management

SUPINFO International University
Ecole d'Informatique - IT School
École Supérieure d'Informatique de Paris, leader en France
La Grande Ecole de l'informatique, du numérique et du management
Fondée en 1965, reconnue par l'État. Titre Bac+5 certifié au niveau I.
SUPINFO International University is globally operated by EDUCINVEST Belgium - Avenue Louise, 534 - 1050 Brussels