Plan du site  
pixel
pixel

Articles - Étudiants SUPINFO

Présentation d'un outil ETL : SSIS

Par Aravindan RENGARAMANUJAM Publié le 28/07/2015 à 12:45:46 Noter cet article:
(0 votes)
Avis favorable du comité de lecture

Introduction

Le Business Intelligence permet aux entreprises à prendre des décisions suite à une analyse complexe de données. Cette analyse nécessite une gestion de grande quantité de données provenant souvent de sources et format différents.

Le SQL Server Integration Services (SSIS) est un outil ETL avec Interface graphique.

C’est un composant de Microsoft SQL Server qui est utilisé pour extraire des données d’une ou plusieurs sources des données (Fichier Excel/plat, FTP, Base de données transactionnelles…) afin de transformer ces données selon un format exploitable par les outils d’analyse et de les consolider en une seule base de donnée, conservée dans le Datawarehouse.

Schéma explicatif ETL

L'espace de travail SSIS

La création d’un projet SSIS se faisait auparavant sur un outil utilisant l’environnement basé sur Microsoft Visual Studio et appelé « Business Intelligence Development Studio », aussi surnommé « BIDS ».

Dans les nouvelles versions de Microsoft SQL Server, l’outil a été renommé « SQL Server Data Tools for Business Intelligence solutions ».

NB : L’environnement présenté est composé de SQL Server 2012 et Visual Studio

Source : MSDN

SQL Server Data Tools est utilisé pour des services d’analyses, de Reporting et d’integration et présente un environnement similaire à Visual Studio (Explorateur de solutions, sources de données …)

Une fois le projet d’intégration services crée, il sera représenté par un « Package » avec un format « .dtsx » qui contiendra toutes les tâches de gestion de données.

Ce package, une fois ouvert présentera l’environnement de travail SSIS avec une boîte à outils cf. l’image « Environnement SSIS »

Environnement SSIS

L’espace de travail est constitué de plusieurs onglets :

  • Flux de contrôle : permet la gestion des tâches que le package va exécuter.

  • Flux de données : la sélection des données à traiter, les transformations et leurs destinations sont effectuées à ce niveau pour chacune des tâches qui sont définis dans l’onglet « flux de contrôle ».

  • Gestionnaire d’évènement : gestions des erreurs (ex : Erreurs affichées, Envoi de mail suite à une erreur...)

  • Explorateur de package : contient les différents paramètres du package (variables, contraintes d’exécution…)

  • Résultat d’exécution : affiche une fois l'exécution lancée, chacune des étapes d’exécution du package (la durée, les erreurs, l’avancement, le % …)

La boîte à outils contient différentes catégories d’outils en fonction de l’onglet choisi :

  • Source de flux de données : choix de sources de données (Bases de données, Fichiers...)

  • Transformation du flux de données : les changements et fonctions pouvant être appliqués aux données importées.

  • Destination du flux de données : (Bases de données, Fichiers...)

Il contient également des outils effectuant des tâches prédéfinis :

  • Des Conteneurs : Utilisé pour contenir ou boucler sur un certain nombre d’évènements

  • Autres Outils : tels que l’exécution de tâches (SQL / XML / FTP / Mail / Insertion …)

Parmi les tâches, on retrouve également des fonctions pratiques similaire aux fonctions SQL pour permettre un traitement plus facile des données : Sort, Union, Merge, Agrégation …

Chacun de ces blocs doivent être glissés dans l’onglet « Flux de données » et ensuite être liés à une source pour être configurés et utilisés.

Fonctionnement

Le flux de données est souvent constitué d’une succession de plusieurs tâches qui peuvent être structurés et organisés selon l’ordre d’exécution voulu avec la possibilité de gérer la réussite ou l’échec de la tâche.

Exemple de package : Extraction des données d’un fichier plat

Dans cet exemple, on utilise un fichier plat comme source de traitement, suivi d’une conversion de données, qui est effectué à l’aide d’un script (C#, VB ou autres) contenu au sein de l’outil.

Chaque bloc étant lié par une flèche, il représente le chemin entrepris par le processus en fonction du résultat de la tâche donné, la flèche verte est suivie lors d’une réussite et la flèche rouge dans le cas d’un échec ou erreur.

Une fois ce bloc exécuté, il y’a deux possibilités, si la conversion réussit, les données spécifiées dans le script de conversion sont insérées dans la base de données.

Dans le cas contraire, on insère les erreurs liées dans une table spécifique de la base de données.

Utilisation en entreprise

En dehors d’une utilisation décisive pour le Business Intelligence, SSIS est également utilisé dans les entreprises pour des besoins d’approvisionnement ou de consolidations de données provenant de plusieurs sources.

Par exemple, une entreprise qui reçoit des données régulièrement, sous différents formats (CSV, Excel, Ftp, http ou autres) et souhaitant gagner du temps peut choisir d’utiliser SSIS pour récupérer toutes ces données en modifiant chacune des colonnes de ces données selon le format (ex : Date, Prix) voulu et de consolider ces informations dans ses bases de données pour l’utilisation de son Business.

L’utilisation d’un outil ETL : dans notre cas, SSIS permet ainsi à l’entreprise un contrôle centralisé sur la gestion de données en lui évitant de créer un programme d’extraction et de formatage pour chaque format de fichier de données selon la compatibilité de ses bases de données.

Pour aller plus loin

L’avantage majeur de de cet outil réside dnas le fait que les possibilités fournis par ce dernier ne sont pas limités aux blocs disponibles dans la boîte à outils car il est possible via des scripts, de coder de nouvelles fonctions ou faire appel à d’autres DLL fournissant de nouvelles fonctionnalités servant des buts définis.

Il permet ainsi de fournir une extension de fonctionnalités sans limite au traitement des informations.

En plus de fournir un contrôle total sur ses données, les packages «.dtsx » peuvent être lancés automatiquement via des Job SQL dans Microsoft SQL Server.

L’entreprise peut donc automatiser des tâches prédéfinis : les données seront ainsi téléchargés / extraits, modifiés et consolidées dans le Datawarehouse selon les paramètres définis.

L’entreprise n’a plus qu’à se concentrer sur l’exploitation ces données pour son business sans se soucier de sa source ou format.

Définitions

  1. ETL : Technologie permettant la manipulation de données massives et suivant le processus d’Extract transformation Loading.

  2. Datawarehouse : Base de données centralisé contenant toutes les données.

  3. Package SSIS : Fichier contenant toute une solution ETL et toutes les tâches liées au package.

  4. Un fichier plat : Nom donné aux fichiers simples contenant un enregistrement par ligne et dont les champs sont délimités par un caractère spécial de types (.txt, .csv, .ini …)

  5. DLL : Dynamic Link Library, est un format de fichier représentant une librairie de fonctionnalités et contenant des briques de fonctionnalités diverses pouvant être appelés depuis d’autres projets.

A propos de SUPINFO | Contacts & adresses | Enseigner à SUPINFO | Presse | Conditions d'utilisation & Copyright | Respect de la vie privée | Investir
Logo de la société Cisco, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société IBM, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sun-Oracle, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Apple, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Sybase, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Novell, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Intel, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Accenture, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société SAP, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Prometric, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo de la société Toeic, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management Logo du IT Academy Program par Microsoft, partenaire pédagogique de SUPINFO, la Grande École de l'informatique, du numérique et du management

SUPINFO International University
Ecole d'Informatique - IT School
École Supérieure d'Informatique de Paris, leader en France
La Grande Ecole de l'informatique, du numérique et du management
Fondée en 1965, reconnue par l'État. Titre Bac+5 certifié au niveau I.
SUPINFO International University is globally operated by EDUCINVEST Belgium - Avenue Louise, 534 - 1050 Brussels