Wirtschaftsinformatik: Komplexe Datenbankanwendungen 2
Sie sind hier: Startseite › Wirtschaftsinformatik › Komplexe Datenbankanwendungen 2 (OLAP)
IC / CM, Kurs vom 01.04.2006 - 30.09.2006
OLAP
Transaktionale/Analytische Verarbeitung von Daten
- OLTP: Online Transaction Processing
- Durchführung von Geschäftstransaktionen
- Operative Systeme
- OLAP: Online Analytical Processing
- Auswertung analyseorientierter Datenbestände, die üblicherweise in einem Data Warehouse vorliegen
- MOLAP: OLAP auf Basis multidimensionaler Strukturen
- ROLAP: OLAP auf Basis relationaler Strukturen
- HOLAP: OLAP auf Basis hybrider Strukturen (einer Kombination multidimensionaler und relationaler Strukturen)
Anfragen:
transaktional | analytisch | |
---|---|---|
Fokus | Lesen, Schreiben, Modifizieren, Löschen | Lesen, periodisches Hinzufügen |
Transaktionsdauer und -typ | Kurze Lese-/Schreibtransaktionen | Lange Lesetransaktionen |
Anfragestruktur | Einfach strukturiert | Komplex strukturiert |
Datenvolumen | Wenige Datensätze | Viele Datensätze |
Datenmodell | Anfrageflexibles Datenmodell | Analysebezogenes Datenmodell |
Daten:
transaktional | analytisch | |
---|---|---|
Datenquellen | Meist eine | Meist mehrere |
Eigenschaften | Nicht abgeleitet, zeitaktuell, autonom, dynamisch | Abgeleitet, konsolidiert, historisiert, integriert, stabil |
Datenvolumen | Megabyte bis Gigabyte | Gigabyte bis Terabyte |
Zugriffe | Meist Einzeltupelzugriff Beispiele: ein konkreter Artikel, eine bestimmte Bestellung |
Meist Bereichsanfragen Beispiele: alle Transaktionen im Januar, alle Bestellungen aus der neunten Kalenderwoche |
Anwender:
transaktional | analytisch | |
---|---|---|
Anwendertyp | Sachbearbeiter | Manager, Controller, Analysten |
Anwenderzahl | Viele | Wenige |
Antwortzeit | Millisekunden bis Sekunden | Sekunden bis Minuten |
Analysefunktionalität
- Visualisierung der Daten
- Tabellen, Diagramme
- Interaktive Datenanalyse
- Ad hoc-Analysen
- Navigation entlang von Klassifikationshierarchien
- Data Mining
- Ungerichtete Analysen
- Aufdeckung von Zusammenhängen
- Segmentierung des Datenbestandes
Multidimensionale Datenanalyse
- Analyse von Kennzahlen in verschiedenen Dimensionen
- Dimensionen (z.B.
Geographie, Zeit, Produktgruppe)
- Bilden die Bezugsgrößen für Kennzahlen
- Können eine hierarchische Struktur haben
- Sind voneinander unabhängig
- Spannen einen n-dimensionalen Raum auf
- Kennzahlen
- Sind Gegenstand der Betrachtung
- Haben Bezugsdimensionen
- Werden auf verschiedenen Ebenen verdichtet (Aggregation)
Multidimensionale Betrachtung der Eigenschaft "Menge"
- Dimension Geographie: Ebene Nation (z.B. mit den Elementen Deutschland, Frankreich, Italien), Ebene Region (z.B. mit den Elementen Europa - hierzu zählen die vorgenannten Nationen - Asien, Amerika), Top-Ebene (übergeordnete Ebene, die Gesamtdaten unabhängig von den existierenden Ebenen aufzeigt)
- Dimension Zeit: Ebene Monat (z.B. mit den Elementen Januar 2006, Februar 2006, März 2006), Ebene Quartal, Ebene Jahr
- Dimension Produktgruppe: Ebene Produkttyp (z.B. mit den Elementen Blei, Eisen, Stahl)
Die Top-Ebene erlaubt in diesem Beispiel also die Betrachtung von Produktgruppen unabhängig von Region und Nation.
Diese Dimensionen können in einem Würfel abgebildet werden (Würfelmetapher). Die Schnittpunkte der Dimensionen bilden dann Zellen, z.B. gibt es eine Zelle mit einem Wert für die Menge von Stahl in Deutschland im Januar 2006. In einer Zelle dürfen sich beliebig viele Kennzahlen befinden. Voraussetzung ist, dass sich diese auf die gleichen Dimensionen beziehen.
Es sind beliebig viele Dimensionen möglich. Das vorangegangene Beispiel mit den Dimensionen Geographie, Zeit und Produktgruppe könnte z.B. noch um die Dimension Marke erweitert werden.
Beispiel eines zweidimensionalen Datenwürfels: Die Menge wird untersucht in den zwei Dimensionen Geographie (mit den Ebenen Nation und Region) und Zeit (mit den Ebenen Monat, Quartal, Jahr). Im zweidimensionalen Koordinatensystem können dann die Nationen auf der y-Achse abgebildet werden und die Monate auf der x-Achse. Punkte auf dem Koordinatenfeld zeigen dann verkaufte Mengen z.B. in Deutschland im Januar 2006.
Operationsmodi
Rollup/Drilldown:
- Transformation des Würfels in eine andere Aggregationsstufe
- Anzahl der Dimensionen bleibt gleich
Rollup: Anwendung findet dieser Modus mit den Methoden Summierung, Durchschnitt-, Minimum- oder Maximumbildung.
Beim Rollup werden Daten zusammengefasst, beim Drilldown Daten verfeinert.
Bildbeschreibung "Drilldown und Rollup": Der Punkt Menge in Europa (Dimension Geographie, Ebene Region) im ersten Quartal 2006 (Dimension Zeit, Ebene Quartal) wird in einem zweiten Koordinatensystem verfeinert (Drilldown). Besagter Punkt kann nämlich beispielsweise weiter spezifiziert werden: Ebene Nation mit den Elementen Deutschland, Italien und Frankreich sowie Ebene Monat mit den Elementen Januar 2006, Februar 2006 und März 2006. Der umgekehrte Weg von Monaten auf Quartal und von Nation auf Region beschreibt das Rollup.
Slicing:
- Ausschneiden entlang einer Dimension
- Die Anzahl der Dimensionen verringert sich
Bildbeschreibung "Slicing": In einem Datenwürfel werden die Dimensionen Nation (Elemente: Deutschland, Italien, Frankreich), Produkttyp (Elemente: Kupfer, Zink, Stahl) und Zeit (Elemente: Januar 2006, Februar 2006, März 2006) abgebildet. Es erfolgt ein Schnitt entlang der Zeit-Dimension, Februar 2006. Übrig bleiben also die Verkäufe im Februar 2006 bezüglich der verbleibenden Dimensionen Nation und Produkttyp.
Dimensionenreduktion in der Darstellung:
Äquivalente 2-dimensionale Darstellung eines 3-dimensionalen Raumes.
Bildbeschreibung "Dimensionenreduktion": Aus einem dreidimensionalen Koordinatensystem wird ein zweidimensionales Koordinatensystem.
Typische Analyseaspekte:
- Aggregationen und Schnitte
- Ausgewählte Dimensionselemente
- Detail-zu-Total-Analysen
- Kumulationen
- Vergleiche bezüglich paralleler Hierachieelemente
- Rangbildung
- ABC-Analysen
ROLAP
Die multidimensionale Darstellung erfolgt mit Würfeln, die relationale Darstellung mit Star- und Snowflake-Schema.
Star-Schema
- Dimensionentabellen
- Primärschlüssel zur Identifizierung der Dimensionenwerte
- Abbildung der Dimensionenhierarchie durch Attribute
- Denormalisiert
- Faktentabelle
- Fremdschlüssel zu den Dimensionentabellen (die unterste Ebene jeder Dimension wird als Schlüssel in die Faktentabelle aufgenommen)
- Fremdschlüssel auf die Dimensionen bilden zusammengesetzten Primärschlüssel für die Fakten
Bildbeschreibung "Star-Schema": Abbildung des vorangehend beschriebenen Aufbaus.
Es sind Verbund- und Aggregationsoperationen möglich. Die dritte Normalform (transitive Abhängigkeiten) ist nicht gegeben, da funktionale Abhängigkeiten der Attribute existieren.
Snowflake-Schema
- Dimensionentabellen
- Primärschlüssel zur Identifizierung der Dimensionenwerte
- Abbildung der Dimensionenhierarchie durch Fremdschlüssel
- Normalisiert
- Faktentabelle wie bei Star-Schema
Bildbeschreibung "Snowflake-Schema": Abbildung des vorangehend beschriebenen Aufbaus.
In gewisser Weise ist das Snowflake-Schema auch ein Star-Schema, bei dem die Dimensionen normalisiert wurden.
Vergleich Star-/Snowflake-Schema
Star | Snowflake | |
---|---|---|
Speicherverbrauch | Größer, da Dimensionentabellen redundante Daten enthalten (nicht normalisiert) | Kleiner, da Dimensionentabellen keine redundanten Daten enthalten (normalisiert) |
Geschwindigkeit | Größer, da keine zusätzlichen Verbunde | Kleiner, da zusätzliche Verbunde |
Empfehlung: Star-Schema. Speicherverbrauch bei Dimensionentabellen ist im Allgemeinen kein Problem. Zusätzliche Verbunde wirken sich dagegen durchaus negativ aus, insbesondere wenn es viele Dimensionen gibt. Bei zunehmenden Dimensionen und Aggregationen kommt es zur Datenexplosion.
SQL-Erweiterungen für OLAP (ab SQL:99)
- Gruppierungsmengen
- Erweiterung der
group by
-Klausel, so dass gleichzeitig nach mehreren Attributkombinationen gruppiert werden kann. cube
- undrollup
-Klauseln als spezielle Gruppierungsmengen, die die Grundlage für die multidimensionale Analyse auf relationalen Datenbanken bilden.
- Erweiterung der
- Partitionierungsausdrücke
- Ratio-zu-Total
- Sequenzorientierte Analyse
- Kumulationen
- Rangbildung
weitere Gruppierungen:
- Multidimensionale Gruppierung
- Hierarchische Gruppierung
- Multidimensionale hierarchische Gruppierung
- Partielle multidimensionale Gruppierung