Wirtschaftsinformatik: Komplexe Datenbankanwendungen 2

Sie sind hier: StartseiteWirtschaftsinformatikKomplexe Datenbankanwendungen 2 (ETL)

IC / CM, Kurs vom 01.04.2006 - 30.09.2006

Komplexe Datenbankanwendungen 2: ETL (Datenqualität, Extraktion, Transformation, Laden, ETL-Werkzeuge).

ETL

ETL steht für Extraktion (extraction), Transformation (transformation) und Laden (load) und bezeichnet den Vorgang der regelmäßigen Aktualisierung eines Data Warehouse. ETL ist mit der Integration heterogener Daten sowie der Sicherstellung der Datenqualität häufig der aufwendigste Schritt in der Data Warehouse-Entwicklung.

Datenqualität

  1. Konsistenz
    • Sind die Daten in sich widerspruchsfrei
    • Referenzielle Integrität, Schlüsselintegrität, passen Primär- und Metadaten zusammen usw.
  2. Korrektheit
    • Stimmen die Daten mit den Sachverhalten der Realität überein
  3. Vollständigkeit / Minimalität
    • Sind alle relevanten Sachverhalte der Realität in den Daten abgebildet
    • Keine Redundanzen
  4. Relevanz
    • Sind die Daten für den Zweck des Data-Warehouse erforderlich
  5. Genauigkeit/Granularität
    • Haben z.B. Zahlen eine ausreichende Anzahl von Nachkommastellen
    • Liegen die Daten in ausreichendem Detailierungsgrad vor
  6. Verwendbarkeit
    • Sind die Daten weiterverarbeitbar

Extraktion

  1. Übertragung der Daten aus den Quellsystemen in den Arbeitsbereich
    • Heterogene Quellsysteme
    • Häufig große Datenmengen
  2. Extraktionszeitpunkte
    • Auf Anfrage (ad hoc)
    • Ereignisgesteuert
      • Sofortige Extraktion nach Änderung
      • Nach festgelegter Anzahl von Änderungen
      • Periodisch
  3. Technische Realisierung
    • Exportfunktion in den Quellsystemen
    • Zugriff über Programmschnittstellen

Extraktionsstrategien:

Transformation

  1. Migration in einheitliche Strukturen
    • Schemaebene
    • Datenebene
  2. Anpassung
    • Angleichung von Datentypen
    • Konvertierung von Kodierungen
    • Vereinheitlichung (z.B. Zeichenketten, Datumsangaben)
    • Umrechnung von Maßeinheiten
    • Kombination/Separierung von Attributwerten
  3. Datenbereinigung
    • Fehlerhafte Daten
    • Fehlende Daten
    • Inkonsistenzen
    • Redundanzen

Laden

  1. Übertragung aufbereiteter Daten
    • Physisches Eintragen der Daten in das Data Warehouse
  2. Aktualisierung abgeleiteter Daten
    • Ergänzung bzw. Neuberechnung materialisierter Aggregationen
  3. Ladewerkzeuge
    • Schneller Import der Daten (Massenlader)
    • Suspendierung der Konsistenzprüfungen
    • Online versus Offline

ETL-Werkzeuge

  1. Datenzugriff
    • Treiber für viele Arten von Datenquellen
  2. Transformation
    • Definition von Transformationsschritten
    • Skriptsprache
    • Ablaufsteuerung
  3. Automatisierung
    • Termingesteuerte Durchführung von ETL-Prozessen
  4. Metadatenverwaltung
    • Erzeugung geeigneter Metadaten