Plan du site  
pixel
pixel

Articles - Étudiants SUPINFO

Traitement de données dans le cadre de Big Data

Par Fan WU Publié le 12/09/2015 à 21:29:05 Noter cet article:
(0 votes)
Avis favorable du comité de lecture

L'exigence de traitement de données

Avec l'avènement de l'âge des données massives, les sources de données sont très riches et les types de données sont diverses. Ainsi, pour le stockage, l'analyse et l'exploration d’énormes volumes de données, l'exigence élevée sur l'affichage de données est nécessaire. Et il faut mettre l'accent sur la disponibilité et l'efficacité du traitement de données.

Les inconvénients de la méthode traditionnelle de traitement de données

L'acquisition de données traditionnelle provient d'une source simple. Et le volume de données à stocker, gérer et analyser est relativement petit. La plupart de données peuvent être traitées par la base de données relationnelle et l'entrepôt de données parallèle. Par rapport à l'amélioration de la vitesse de traitement de données en façon de calcul parallèle, la base de données parallèle traditionnelle poursuit une haute consistance et la tolérance de panne. Selon la théorie de CAP (Consistency-Availability-Partition tolerance), il est difficile de garantir la disponibilité et l'évolutivité.

La méthode traditionnelle est centrée sur le processeur. Mais dans le cadre de Big Data, il a besoin de prendre un modèle centré sur les données pour la réduction de coût de déplacement des données. Par conséquent, la méthode traditionnelle de traitement de données a été incapable de répondre aux besoins des données massives.

Les processus de traitement de Big Data et les outils principaux

Il n'y a pas beaucoup de différence avec les processus traditionnels. La différence principale est la méthode de traitement. En raison d'énorme volume de données non structurées, l'outil de méthode parallèle tel que MapReduce peut être utilisé dans toutes les étapes de traitement.

Pourquoi la technologie de Big Data peut améliorer la vitesse de traitement de données ?

MapReduce, la technologie de traitement en parallèle, peut augmenter la vitesse de traitement des données. Il est conçu par le traitement parallèle des données massives par un cluster de serveurs pas chers, moins exigeant sur la cohérence de données. Son avantage est l'évolutivité et la disponibilité, surtout pour le traitement de mélange des données massives structurées, semi-structurées et non structurées.

MapReduce traite les opérations traditionnelles telles que les requêtes, la décomposition et l'analyse des données en mode distribué et attribue les tâches de traitement aux nœuds de processus différents. Ainsi, il a plus de capacité de traitement parallèle. Comme un modèle de programmation simplifié pour le traitement parallèle, MapReduce aussi abaisse le seuil de développement des applications parallèles.

MapReduce est un framework de logiciel, y compris Map et Reduce. Les deux phases peuvent décomposer des données massives et des tâches et faire le résumé des résultats pour compléter le traitement parallèle des larges quantités de données.

La fonction Map permet de décomposer des données massives en des certains nombres de pièces plus petites et les répartir sur plusieurs processeurs à traiter en parallèle. La fonction Reduce permet d'assembler tous ces résultats en un résultat final.

Comme illustré sur la figure ci-dessous, MapReduce compte le nombre de formes géométriques différentes. D'abord, il assigne la tâche aux deux nœuds, qui font la statistique en parallèle. Puis il met les résultats ensemble pour obtenir le résultat final.

Différence entre MapReduce et MPI

MapReduce a des différences avec l'outil dans l'environnement traditionnel de calcul distribué en parallèle MPI dans les aspects ci-dessous :

Nouvelles méthodes utilisées dans la collecte de données

Méthode de collecte des journaux du système

Beaucoup d'entreprises Internet possèdent leurs propres outils pour la collecte de données massives, qui sont utilisés pour la collection de journaux système, tels que Chukwa de Hadoop, Flume de Cloudera, Scribe de Facebook, etc. Ces outils sont en mode distribué pour répondre à des besoins d’acquisition et de transmission de données des journaux des centaines de Mo par seconde.

Méthode de collecte des données du réseau : pour des données non structurées

La collecte de données du réseau est l'acquisition de données et d'information du site web par les robots web ou site web API publique. Cette méthode permet d'extraire des données non structurées à partir d'une page web, et de les stocker de façon structurée comme les fichiers de données locales uniformes. Elle supporte la collecte des fichiers tels que des images, audio, vidéo ou les pièces jointes qui peuvent associer automatiquement au texte.

En plus du contenu inclus dans le réseau, le trafic réseau peut être recueilli à l'aide des techniques de gestion de la bande passante comme DFI ou DPI.

Autres méthodes de collecte de données

Pour les données en haute confidentialité tels que les données de production et de gestion de l'entreprise ou les données de recherche scientifique, l'acquisition de données peut utiliser l'interface spécifique du système grâce à la coopération avec des entreprises ou des institutions de recherche.

A propos de SUPINFO | Contacts & adresses | Enseigner à SUPINFO | Presse | Conditions d'utilisation & Copyright | Respect de la vie privée | Investir
Logo de la société Cisco, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société IBM, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sun-Oracle, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Apple, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sybase, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Novell, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Intel, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Accenture, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société SAP, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Prometric, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Toeic, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo du IT Academy Program par Microsoft, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management

SUPINFO International University
Ecole d'Informatique - IT School
École Supérieure d'Informatique de Paris, leader en France
La Grande Ecole de l'informatique, du numérique et du management
Fondée en 1965, reconnue par l'État. Titre Bac+5 certifié au niveau I.
SUPINFO International University is globally operated by EDUCINVEST Belgium - Avenue Louise, 534 - 1050 Brussels