Wirtschaftsinformatik: Komplexe Datenbankanwendungen 2

Sie sind hier: StartseiteWirtschaftsinformatikKomplexe Datenbankanwendungen 2 (Data Warehouse-Systeme)

IC / CM, Kurs vom 01.04.2006 - 30.09.2006

Komplexe Datenbankanwendungen 2: Data Warehouse-Systeme (Beispiele für Entscheidungsunterstützung, Motivation Data Warehouse, Data Warehousing, Struktur einer Data Warehouse-Umgebung), Data Warehouse-Referenzarchitektur (Quellsysteme, Arbeitsbereich, Basisdatenbank, Analysebereich, Metadaten-Repositorium, Data Warehouse-Manager).

  1. Data Warehouse-Systeme
  2. Data Warehouse-Referenzarchitektur

Data Warehouse-Systeme

Beispiele für Entscheidungsunterstützung

  1. Handel
    • Umsatz, Gewinn pro Produkt, Geschäft, Zeitraum
    • Wirkung von Marketing-Aktivitäten
    • Analyse von Kaufverhalten
    • Verpackungs-, Versands-, Lieferdauer
    • Lieferantenanalyse, Beschaffungsoptimierung
    • Kundensegmentierung
    • Zahlungsverhalten
  2. Produktion
    • Effizienz von Produktionsprozessen, Werken, Produktionsleitern
    • Produktionskosten
    • Durchlaufzeiten
  3. Gesundheitswesen
    • Bettenauslastung
    • Auslastung von Geräten, Laboren, Operationssälen
    • Verweildauer
    • Maßnahmenmix
  4. Telekommunikation
    • Zeitliche Nutzung von Verbindungen
    • Dauer von Verbindungen
    • Erreichbarkeitsgrad
  5. Banken
    • Kontenanalysen
    • Depotanalysen
    • Nutzungsmuster von Geldautomaten
  6. Versicherungen
    • Abschlussvolumen
    • Neuabschlüsse
    • Schadensbilanz, Schadensmuster
  7. Dienstleistungen
    • Arbeitszeiten
    • Vertragsprofitabilität
    • Kundenprofitabilität
  8. Reise
    • Hotelauslastungen
    • Flugauslastungen
    • Trends
  9. Ausbildung
    • Kursauslastungen
    • Teilnehmeranalysen
    • Dozentenbewertungen
  10. Öffentliche Verwaltung
    • Sozialhilfe
    • Steuern
    • Wohnungsnutzungen

Motivation Data Warehouse

Extraktion entscheidungsunterstützender Daten:

  1. Ausgangsdaten (operatives System)
  2. Extraktionsprogramm
  3. Datei und Private Datenbank

Das Extraktionsprogramm zieht die Daten aus den operativen Systemem ab. Sie werden in Dateien oder privaten Datenbanken gespeichert. Damit können sie ohne Beeinflussung der operativen Systeme analysiert werden, es kommt damit z.B. zu keiner Performanzbeeinträchtigung.

Probleme, die durch das Geflecht von Extraktionsprogrammen entstehen:

  1. Mangelnde Glaubwürdigkeit der Extraktionen
    • Keine gemeinsame Zeitbasis: Die Extraktionsprogramme laufen zu unterschiedlichen, nicht abgestimmten Zeitpunkten und basieren damit auf unterschiedlichen Datenständen.
    • Unterschiedliche Verfahren der Extraktion: z.B. eine Extraktion betrachtet alle Kunden, eine andere nur die aktiven Kunden.
    • Extraktionen von Extraktionen: Dies verstärkt die beiden ersten Punkte.
    • Unterschiedliche externe Datenquellen: z.B. Marktanalysen von verschiedenen Marktforschungsunternehmen.
    • Keine gemeinsame Datenbasis: z.B. können Kundendaten redundant in verschiedenen operativen Systemen gespeichert sein. Eine Extraktion verwendet System A und die andere System B.
  2. Schlechte Produktivität
    • Viele Extraktionsprogramme für einen Bericht: Befinden sich die Daten für einen Bericht in verschiedenen Systemen, so müssen viele Extraktionsprogramme individuell erstellt werden. Da ein Unternehmen üblicherweise Systeme mit unterschiedlicher Technologie einsetzt, müssen auch die Extraktionsprogramme in verschiedenen Technologien entwickelt werden.
    • Auswirkungen von Änderungen: Änderung von Anforderungen an Berichten ziehen Änderungen der Extraktionsprogramme nach sich. Änderungen an den operativen Systemen ziehen ebenfalls Änderungen an den Extraktionsprogrammen nach sich.
    • Auffinden der relevanten Daten: Das Auffinden der relevanten Daten ist unter Umständen zeitaufwändig, da die Bedeutung Daten in bestimmten Dateien/Systemen nicht offensichtlich ist.
  3. Mangelnde Ableitbarkeit von Informationen
    • Unterschiedliche Bedeutung der Daten: Verschiedene Systeme verbinden unterschiedliche Bedeutungen mit Datenelementen gleichen Namens oder verwalten Datenelemente mit unterschiedlichen Namen, die dieselbe Bedeutung haben.
    • Keine gemeinsame Historienführung: Verschiedene Systeme haben einen unterschiedlichen Zeithorizont bei der Speicherung von Daten. Die Zeithorizonte reichen für Analysezwecke nicht aus.

Der Ansatz der Extraktionsprogramme ist für die Entscheidungsunterstützung nicht ausreichend. Er ist nicht skalierbar und empfindlich gegenüber Änderungen. Ein Data Warehouse-Ansatz ist notwendig, der die Probleme einer gewachsenen Struktur von Extraktionsprogrammen beseitigt.

Data Warehousing

Business Intelligence ist ein Oberbegriff, unter dem alle informationstechnischen Instrumente zur Entscheidungsunterstützung zusammengefasst werden. Entscheidungsunterstützende Systeme sind Systeme, die das Treffen von Entscheidungen auf allen Unternehmensebenen unterstützen, im Gegensatz zu operativen Systemen, die die Durchführung von Geschäftsprozessen ermöglichen. Begriffe mit gleicher oder ähnlicher Bedeutung: Decision Support Systems, Management Information Systems, Executive Information Systems. Data Warehouse-Systeme sind eine Form von Entscheidungsunterstützenden Systemen, im Gegensatz z.B. zu Expertensystemen. Ein Data Warehouse ist eine fachorientierte, integrierte, nicht flüchtige, zeitbezogene Sammlung von Daten zur Entscheidungsunterstützung.

Fachorientierung meint die Zusammenfassung von Daten nach fachlichen Gesichtspunkten (Warenwirtschaftssystem, Abrechnungssystem, Buchhaltungssystem, nicht nach operativen Systemen), die Zusammenfassung unter dem Gesichtspunkt der Analyse (Kunden, Produkte) und das Weglassen rein operativer Daten.

Integration meint eine Vereinheitlichung durch die Umwandlung von Kodierungen (0,1 / m,f werden zu m,f), Einheiten (Zentimeter / Meter werden zu Zentimeter), Werten (Beschreibung 1 / Beschreibung 2 werden zu Beschreibung) und Schlüsseln (Integer / Char werden zu Integer) zweier Anwendungen (A / B) im Data Warehouse.

Permanenz: Daten werden (schubweise) in das Data Warehouse geladen. Nur Lesezugriff, keine Änderungen. Ausnahme fehlerhafte Daten. Korrekturmöglichkeiten: Ersetzung fehlerhafter Datensätze durch korrekte; Kompensationsdatensätze; Nichts tun, aktuelle Werte sind korrekt, Historie allerdings fehlerhaft. Beispiel: In den operativen Daten gibt es Datensätze für die Aktionen Einfügen, Löschen, Ändern und Zugriff. Diese werden dann auf einen Schub in das Data Warehouse geladen. Erst dann erfolgt ein getrennter Datensatz-Zugriff.

Zeitbezug: Historienführung. Daten werden immer nur ergänzt, nicht gelöscht. Abbild (Snapshot) des aktuellen Zustands im operativen System. Alle Datensätze erhalten eine Zeitinformation. Manche Datensätze besitzen bereits eine solche Information, z.B. Bestelldatum. Andere erhalten künstlich einen Zeitstempel, z.B. Zeitpunkt der Datenextraktion. Auslagerung in Archiv: Aktuell nicht mehr benötigte Detaildaten können aus dem direkten (online) Zugriff entfernt und auf ein preiswertes Archivmedium ausgelagert werden. Beispiel Kunde: Viele Tabellen pro Fachbezug möglich. Änderung der Struktur im Laufe der Zeit. Alle Daten haben Zeitbezüge. Unterschiedliche Medien.

Struktur einer Data Warehouse-Umgebung

  1. Operatives System
    • detailliert
    • aktuell
    • kaum Historie
    • anwendungsorientiert
  2. Data Warehouse
    • fachorientiert
    • integriert
    • permanent
    • historisiert
  3. Data Mart
    • eingegrenzt
    • aggregiert
    • abgeleitet
  4. Desktop-Datenbank
    • temporär
    • ad hoc
    • heuristisch

Struktur eines Data Warehouse:

Die Daten (ausgenommen alte Detaildaten) werden als Metadaten bezeichnet.

Zum Menü Wirtschaftsinformatik | Zum Seitenanfang

Data Warehouse-Referenzarchitektur

Referenzarchitektur Data Warehouse-Systeme

Bildbeschreibung "Referenzarchitektur Data Warehouse-Systeme": Besteht aus Quellsystemen, Arbeitsbereich, Basisdatenbank und Analysebereich. Weiterhin gibt es das Metadaten-Repositorium, zwischen dem und den vorgenannten Bereichen Datenflüsse stattfinden. Ein Data Warehouse-Manager umfasst all diese Bereiche. Funktionen und Aufgaben werden nachfolgend ausführlich beschrieben.

Quellsysteme

  1. Datenlieferanten
    • Datenbanken, Systeme, Dateien
  2. Bestimmung der Quellsysteme
    • Zweck, Qualität, Verfügbarkeit
  3. Klassifikation
    • Interne/Externe Daten
    • Primär-/Metadaten
    • Inhalt/Datentyp: z.B. Zahl, Text, Grafik, Dokument
  4. Verfügbarkeit
    • Zugriff rechtlich zulässig
    • Zugriff technisch möglich
    • Schnittstelle vorhanden
    • Geschwindigkeit ausreichend
    • Zugriffsschutz bei der Übertragung vorhanden

Arbeitsbereich

  1. Temporärer Zwischenspeicher für extrahierte Quelldaten
    • Inkrementelle Übernahme der Daten aus den Quellsystemen
    • Nur geänderte bzw. neue Datensätze
  2. Zentrale Komponente des Datenbeschaffungsbereichs
  3. Integration heterogener Quellen
  4. Durchführung ETL
    • Extraktion
    • Transformation
    • Laden

Basisdatenbank

  1. Charakterisierung
    • Integrierte Sicht auf Schema- und Datenebene
    • Umfassende, konsolidierte Daten
    • Daten liegen im notwendigen Detaillierungsgrad vor
    • Historische Datenführung
    • Gewünschte Aktualität
  2. "Einziger Quell der Wahrheit"
  3. Funktionen
    • Versorgung des Analysebereichs mit Daten
    • Gegebenenfalls Vorsorgung operativer Prozesse mit Daten
    • Direkte Auswertungsfunktionen

Analysebereich

  1. Datenbank(en) für Analysezwecke
    • Strukturierung der Daten nach den Analysebedürfnissen
    • Gegebenenfalls Wechsel des Datenmodells: z.B. von relational zu multidimensional
    • Vorberechnete Aggregationen, Abgeleitete Werte
    • Wird aus der Basisdatenbank gefüllt (Ladefunktion)
  2. Analyse
    • Oberbegriff für alle Operationen, die mit den Daten durchgeführt werden
    • Benutzerfreundlichkeit der Oberfläche
    • Analysewerkzeuge ü Business Intelligence Tools
  3. Data Mart
    • Teilsicht auf die Analysedaten (z.B. abteilungsorientiert)
    • Extrakt aus der Basisdatenbank
    • Eigenständigkeit (z.B. Mobilität)
    • Datenschutzaspekte
    • Veringerung des Datenvolumens, Performanzgewinn

Metadaten-Repositorium

  1. Enthält Daten über das Data Warehouse
    • Aufbau, Wartung, Administration
  2. Beschreibende Informationen über die Daten
    • Inhalt, Struktur, Kontext, Bedeutung
  3. Prozessbezogene Informationen
    • Transformationsschritte
    • Protokolle über durchgeführte Aktionen
  4. Zugriff durch
    • Entwicklungs-, Administrations und Analysewerkzeuge
    • Programmschnittstelle

Data Warehouse-Manager

  1. Zentrale Komponente zur
    • Steuerung
    • Überwachung
  2. Management der Datenbeschaffungsprozesse
    • Starten der Extraktionsprozesse
    • Durchführung der Transformationen
    • Ausführung der Ladeprozesse
    • Überwachung und Fehlerbehandlung
    • Sicherstellung der Nachvollziehbarkeit
  3. Management der Analyseprozesse
    • Bereitstellung materialisierter Sichten
    • Bereitstellung von Berichten