Wirtschaftsinformatik: Komplexe Datenbankanwendungen 2
Sie sind hier: Startseite › Wirtschaftsinformatik › Komplexe Datenbankanwendungen 2 (ETL)
IC / CM, Kurs vom 01.04.2006 - 30.09.2006
ETL
ETL steht für Extraktion (extraction), Transformation (transformation) und Laden (load) und bezeichnet den Vorgang der regelmäßigen Aktualisierung eines Data Warehouse. ETL ist mit der Integration heterogener Daten sowie der Sicherstellung der Datenqualität häufig der aufwendigste Schritt in der Data Warehouse-Entwicklung.
Datenqualität
- Konsistenz
- Sind die Daten in sich widerspruchsfrei
- Referenzielle Integrität, Schlüsselintegrität, passen Primär- und Metadaten zusammen usw.
- Korrektheit
- Stimmen die Daten mit den Sachverhalten der Realität überein
- Vollständigkeit / Minimalität
- Sind alle relevanten Sachverhalte der Realität in den Daten abgebildet
- Keine Redundanzen
- Relevanz
- Sind die Daten für den Zweck des Data-Warehouse erforderlich
- Genauigkeit/Granularität
- Haben z.B. Zahlen eine ausreichende Anzahl von Nachkommastellen
- Liegen die Daten in ausreichendem Detailierungsgrad vor
- Verwendbarkeit
- Sind die Daten weiterverarbeitbar
Extraktion
- Übertragung der Daten aus den Quellsystemen in den Arbeitsbereich
- Heterogene Quellsysteme
- Häufig große Datenmengen
- Extraktionszeitpunkte
- Auf Anfrage (ad hoc)
- Ereignisgesteuert
- Sofortige Extraktion nach Änderung
- Nach festgelegter Anzahl von Änderungen
- Periodisch
- Technische Realisierung
- Exportfunktion in den Quellsystemen
- Zugriff über Programmschnittstellen
Extraktionsstrategien:
- Trigger-Strategie: Schreiben der Datensätze mittels Insert-/Update-Trigger
- Replikations-Strategie: Nutzung von Replikationsdiensten
- Zeitstempel-Strategie: Erkennung der zu übernehmenden Datensätze durch Zeitstempel
- Log-Strategie: Extraktion der zu übernehmenden Datensätze aus dem Log
- Snapshot-Strategie: Erzeugung eines zeitpunktsbezogenem Abbilds der Quelldaten, Delta-Berechnung zur Ermittlung der zu übernehmenden Datensätze
Transformation
- Migration in einheitliche Strukturen
- Schemaebene
- Datenebene
- Anpassung
- Angleichung von Datentypen
- Konvertierung von Kodierungen
- Vereinheitlichung (z.B. Zeichenketten, Datumsangaben)
- Umrechnung von Maßeinheiten
- Kombination/Separierung von Attributwerten
- Datenbereinigung
- Fehlerhafte Daten
- Fehlende Daten
- Inkonsistenzen
- Redundanzen
Laden
- Übertragung aufbereiteter Daten
- Physisches Eintragen der Daten in das Data Warehouse
- Aktualisierung abgeleiteter Daten
- Ergänzung bzw. Neuberechnung materialisierter Aggregationen
- Ladewerkzeuge
- Schneller Import der Daten (Massenlader)
- Suspendierung der Konsistenzprüfungen
- Online versus Offline
ETL-Werkzeuge
- Datenzugriff
- Treiber für viele Arten von Datenquellen
- Transformation
- Definition von Transformationsschritten
- Skriptsprache
- Ablaufsteuerung
- Automatisierung
- Termingesteuerte Durchführung von ETL-Prozessen
- Metadatenverwaltung
- Erzeugung geeigneter Metadaten