Wirtschaftsinformatik: Komplexe Datenbankanwendungen 2

Sie sind hier: StartseiteWirtschaftsinformatikKomplexe Datenbankanwendungen 2 (OLAP)

IC / CM, Kurs vom 01.04.2006 - 30.09.2006

Komplexe Datenbankanwendungen 2: OLAP (Transaktionale/Analytische Verarbeitung von Daten, Analysefunktionalität), Multidimensionale Datenanalyse (Multidimensionale Betrachtung der Eigenschaft "Menge", Operationsmodi), ROLAP (Star-Schema, Snowflake-Schema, Vergleich Star-/Snowflake-Schema, SQL-Erweiterungen für OLAP).

  1. OLAP
  2. Multidimensionale Datenanalyse
  3. ROLAP

OLAP

Transaktionale/Analytische Verarbeitung von Daten

  1. OLTP: Online Transaction Processing
    • Durchführung von Geschäftstransaktionen
    • Operative Systeme
  2. OLAP: Online Analytical Processing
    • Auswertung analyseorientierter Datenbestände, die üblicherweise in einem Data Warehouse vorliegen
    • MOLAP: OLAP auf Basis multidimensionaler Strukturen
    • ROLAP: OLAP auf Basis relationaler Strukturen
    • HOLAP: OLAP auf Basis hybrider Strukturen (einer Kombination multidimensionaler und relationaler Strukturen)

Anfragen:

Abgrenzung transaktional/analytisch ü Anfragen
transaktional analytisch
Fokus Lesen, Schreiben, Modifizieren, Löschen Lesen, periodisches Hinzufügen
Transaktionsdauer und -typ Kurze Lese-/Schreibtransaktionen Lange Lesetransaktionen
Anfragestruktur Einfach strukturiert Komplex strukturiert
Datenvolumen Wenige Datensätze Viele Datensätze
Datenmodell Anfrageflexibles Datenmodell Analysebezogenes Datenmodell

Daten:

Abgrenzung transaktional/analytisch ü Daten
transaktional analytisch
Datenquellen Meist eine Meist mehrere
Eigenschaften Nicht abgeleitet, zeitaktuell, autonom, dynamisch Abgeleitet, konsolidiert, historisiert, integriert, stabil
Datenvolumen Megabyte bis Gigabyte Gigabyte bis Terabyte
Zugriffe Meist Einzeltupelzugriff
Beispiele: ein konkreter Artikel, eine bestimmte Bestellung
Meist Bereichsanfragen
Beispiele: alle Transaktionen im Januar, alle Bestellungen aus der neunten Kalenderwoche

Anwender:

Abgrenzung transaktional/analytisch ü Anwender
transaktional analytisch
Anwendertyp Sachbearbeiter Manager, Controller, Analysten
Anwenderzahl Viele Wenige
Antwortzeit Millisekunden bis Sekunden Sekunden bis Minuten

Analysefunktionalität

  1. Visualisierung der Daten
    • Tabellen, Diagramme
  2. Interaktive Datenanalyse
    • Ad hoc-Analysen
    • Navigation entlang von Klassifikationshierarchien
  3. Data Mining
    • Ungerichtete Analysen
    • Aufdeckung von Zusammenhängen
    • Segmentierung des Datenbestandes

Zum Menü Wirtschaftsinformatik | Zum Seitenanfang

Multidimensionale Datenanalyse

  1. Analyse von Kennzahlen in verschiedenen Dimensionen
  2. Dimensionen (z.B. Geographie, Zeit, Produktgruppe)
    • Bilden die Bezugsgrößen für Kennzahlen
    • Können eine hierarchische Struktur haben
    • Sind voneinander unabhängig
    • Spannen einen n-dimensionalen Raum auf
  3. Kennzahlen
    • Sind Gegenstand der Betrachtung
    • Haben Bezugsdimensionen
    • Werden auf verschiedenen Ebenen verdichtet (Aggregation)

Multidimensionale Betrachtung der Eigenschaft "Menge"

Die Top-Ebene erlaubt in diesem Beispiel also die Betrachtung von Produktgruppen unabhängig von Region und Nation.

Diese Dimensionen können in einem Würfel abgebildet werden (Würfelmetapher). Die Schnittpunkte der Dimensionen bilden dann Zellen, z.B. gibt es eine Zelle mit einem Wert für die Menge von Stahl in Deutschland im Januar 2006. In einer Zelle dürfen sich beliebig viele Kennzahlen befinden. Voraussetzung ist, dass sich diese auf die gleichen Dimensionen beziehen.

Es sind beliebig viele Dimensionen möglich. Das vorangegangene Beispiel mit den Dimensionen Geographie, Zeit und Produktgruppe könnte z.B. noch um die Dimension Marke erweitert werden.

Beispiel eines zweidimensionalen Datenwürfels: Die Menge wird untersucht in den zwei Dimensionen Geographie (mit den Ebenen Nation und Region) und Zeit (mit den Ebenen Monat, Quartal, Jahr). Im zweidimensionalen Koordinatensystem können dann die Nationen auf der y-Achse abgebildet werden und die Monate auf der x-Achse. Punkte auf dem Koordinatenfeld zeigen dann verkaufte Mengen z.B. in Deutschland im Januar 2006.

Operationsmodi

Rollup/Drilldown:

Rollup: Anwendung findet dieser Modus mit den Methoden Summierung, Durchschnitt-, Minimum- oder Maximumbildung.

Beim Rollup werden Daten zusammengefasst, beim Drilldown Daten verfeinert.

Drilldown und Rollup

Bildbeschreibung "Drilldown und Rollup": Der Punkt Menge in Europa (Dimension Geographie, Ebene Region) im ersten Quartal 2006 (Dimension Zeit, Ebene Quartal) wird in einem zweiten Koordinatensystem verfeinert (Drilldown). Besagter Punkt kann nämlich beispielsweise weiter spezifiziert werden: Ebene Nation mit den Elementen Deutschland, Italien und Frankreich sowie Ebene Monat mit den Elementen Januar 2006, Februar 2006 und März 2006. Der umgekehrte Weg von Monaten auf Quartal und von Nation auf Region beschreibt das Rollup.

Slicing:

Slicing

Bildbeschreibung "Slicing": In einem Datenwürfel werden die Dimensionen Nation (Elemente: Deutschland, Italien, Frankreich), Produkttyp (Elemente: Kupfer, Zink, Stahl) und Zeit (Elemente: Januar 2006, Februar 2006, März 2006) abgebildet. Es erfolgt ein Schnitt entlang der Zeit-Dimension, Februar 2006. Übrig bleiben also die Verkäufe im Februar 2006 bezüglich der verbleibenden Dimensionen Nation und Produkttyp.

Dimensionenreduktion in der Darstellung:

Äquivalente 2-dimensionale Darstellung eines 3-dimensionalen Raumes.

Dimensionenreduktion

Bildbeschreibung "Dimensionenreduktion": Aus einem dreidimensionalen Koordinatensystem wird ein zweidimensionales Koordinatensystem.

Typische Analyseaspekte:

Zum Menü Wirtschaftsinformatik | Zum Seitenanfang

ROLAP

Die multidimensionale Darstellung erfolgt mit Würfeln, die relationale Darstellung mit Star- und Snowflake-Schema.

Star-Schema

  1. Dimensionentabellen
    • Primärschlüssel zur Identifizierung der Dimensionenwerte
    • Abbildung der Dimensionenhierarchie durch Attribute
    • Denormalisiert
  2. Faktentabelle
    • Fremdschlüssel zu den Dimensionentabellen (die unterste Ebene jeder Dimension wird als Schlüssel in die Faktentabelle aufgenommen)
    • Fremdschlüssel auf die Dimensionen bilden zusammengesetzten Primärschlüssel für die Fakten

Star-Schema

Bildbeschreibung "Star-Schema": Abbildung des vorangehend beschriebenen Aufbaus.

Es sind Verbund- und Aggregationsoperationen möglich. Die dritte Normalform (transitive Abhängigkeiten) ist nicht gegeben, da funktionale Abhängigkeiten der Attribute existieren.

Snowflake-Schema

  1. Dimensionentabellen
    • Primärschlüssel zur Identifizierung der Dimensionenwerte
    • Abbildung der Dimensionenhierarchie durch Fremdschlüssel
    • Normalisiert
  2. Faktentabelle wie bei Star-Schema

Snowflake-Schema

Bildbeschreibung "Snowflake-Schema": Abbildung des vorangehend beschriebenen Aufbaus.

In gewisser Weise ist das Snowflake-Schema auch ein Star-Schema, bei dem die Dimensionen normalisiert wurden.

Vergleich Star-/Snowflake-Schema

Vergleich Star-/Snowflake-Schema
Star Snowflake
Speicherverbrauch Größer, da Dimensionentabellen redundante Daten enthalten (nicht normalisiert) Kleiner, da Dimensionentabellen keine redundanten Daten enthalten (normalisiert)
Geschwindigkeit Größer, da keine zusätzlichen Verbunde Kleiner, da zusätzliche Verbunde

Empfehlung: Star-Schema. Speicherverbrauch bei Dimensionentabellen ist im Allgemeinen kein Problem. Zusätzliche Verbunde wirken sich dagegen durchaus negativ aus, insbesondere wenn es viele Dimensionen gibt. Bei zunehmenden Dimensionen und Aggregationen kommt es zur Datenexplosion.

SQL-Erweiterungen für OLAP (ab SQL:99)

  1. Gruppierungsmengen
    • Erweiterung der group by-Klausel, so dass gleichzeitig nach mehreren Attributkombinationen gruppiert werden kann.
    • cube- und rollup-Klauseln als spezielle Gruppierungsmengen, die die Grundlage für die multidimensionale Analyse auf relationalen Datenbanken bilden.
  2. Partitionierungsausdrücke
    • Ratio-zu-Total
  3. Sequenzorientierte Analyse
    • Kumulationen
    • Rangbildung

weitere Gruppierungen: