
Chapter 7 Notions de base relatives aux transformations de données
Présentation des transformations de données
Dans la plupart des entreprises, les informations sont stockées dans plusieurs bases de données, data warehouses et applications. Cette situation nécessite de pouvoir recombiner et transformer des données provenant de diverses sources dans de nouveaux formats en vue d'assurer le suivi de réplication ou tout autre type d'utilisation.
ETL (Extract Transform and Load) et EII (Enterprise Information Integration) sont deux technologies qui répondent à ce besoin :
- ETL est un processus dans le domaine du data warehousing qui fait référence à trois fonctions séparées combinées en un seul et même outil de programmation :
- Extract (extraction) lit les données dans un système source spécifié.
- Transform (transformation) manipule les données extraites pour les convertir afin de les adapter à vos besoins.
- Load (chargement) écrit les données résultantes dans une cible.
- EII combine des données brutes en orchestrant et organisant des requêtes portant sur différents systèmes source sans agrégation préalable du contenu. Les données ne sont pas transférées de façon permanente à un nouvel emplacement.
Le Modèle de Fluidité de l'Information PowerAMC permet de modéliser et de documenter les processus ETL et EII dans un environnement graphique riche, pris en charge par des métadonnées sophistiquées. En modélisant vos transformations dans PowerAMC, vous pouvez bénéficier de ses fonctionnalités très puissantes de traçabilité et d'analyse d'impact.
Le MFI permet de modéliser et d'analyser les transformations de données dans des vues de haut niveau et des vues détaillées comme suit :
- Diagramme de fluidité de l'information – diagramme de haut niveau, qui permet de modéliser une vue de haut niveau de vos transformations de données en spécifiant :
- Sources d'entrée – elles peuvent être :
- Bases de données (via des MPD)
- Documents XML (via des MSX)
- Processus métiers (via des MPM)
- Fichiers plats (.CSV et .XLS)
- Processus de transformation – c'est là que s'effectuent les transformations. Contient les diagrammes de transformation détaillés de niveau inférieur (voir Processus de transformation).
- Sources de sortie – elles peuvent être :
- Bases de données (via des MPD)
- Documents XML (via des MSX)
- Fichiers plats (.CSV et .XLS)
- Diagramme de transformation de donnée – diagramme de bas niveau, qui permet de modéliser une tâche de transformation en spécifiant de quelle façon les données sont extraites des entrées de données, transformées par les actions et chargées dans des sorties de données. Les entrées et sorties de données sont liées aux sources d'entrée et de sortie dans le diagramme de haut niveau.
- Diagramme de flux de contrôle de transformation – diagramme de bas niveau, qui permet de spécifier la séquence d'exécution d'une série de tâches.
L'exemple suivant montre comment les sources d'entrée et de sortie peuvent être liées à un processus de transformation à haut niveau, et comment la transformation est modélisée dans les diagrammes de niveau inférieur :
Copyright (C) 2008. Sybase Inc. All rights reserved.
|
|