Mobile-Menu-Trenner
Hamburgermenu_icon
Hamburger-X_icon Copy
Hamburger-X_icon Copy
Group

Data Vault macht Ihr Data Warehouse agil

Expert-needle

Wir haben schon immer nach optimalen Lösungen gesucht, um Informationen intelligent und platzsparend abzulegen. Gleichzeitig wollen wir sie aber auch schnell wieder verfügbar machen. Das hat jahrelang mehr oder weniger gut funktioniert. Seit geraumer Zeit kommen aber auf die IT-Abteilungen neue Herausforderungen zu: es müssen quasi per sofort mehr und flexibler Informationen bereitgestellt werden. Außerdem kommen immer mehr Daten mit teils sehr unterschiedlichen Granularität zusammen, die in ein System zu integrieren sind. Mit Data Vault als Modellierungstechnik behalten Sie Kosten, Daten und Zeit im Griff.

Das Beste aus beiden Welten

Bereits Mitte der 1990er Jahre beschäftigten sich eine ganze Reihe von Datenbankspezialisten mit der Data Vault Idee. So auch der Amerikaner Daniel Linstedt. Er war ein Pionier im Bereich der Datenbanken sowie der Prozess-Optimierung von ETL-Strecken (und ist es auch heute noch!). Seine Ideen konnte er in einigen Firmen und auch bei der amerikanischen Regierung umsetzen. Die Erfahrungen, die er dabei gemacht hat, führten zu dem Data Vault Modell: ein Hybrid aus einem klassischem 3NF- und einem Star Schema-Modell. Es nutzt jedoch jeweils nur die Vorteile der beiden Modelle und fügt darüber hinaus noch weitere hinzu. So lassen sich beispielsweise neue Informationen auf einfache Weise in den ETL-Prozess einbinden, ohne das Datenmodell zu verbiegen oder in zahlreichen Anpassungen die Prozessketten an die neuen Gegebenheiten anzupassen. Eine Win-win-Situation für die IT-Zeitkonten und das Fachbereichs-Budget.

Im Kern besteht ein Data Vault Modell aus drei Objekten

Grafik: Data Vault Modell

HUB

Dieser Objekttyp beinhaltet den fachlichen Schlüssel, also beispielsweise eine Kunden- oder Artikelnummer. Dieser fachliche Schlüssel wird mit einem technischen Schlüssel sowie einer Zeitstempel- und einer Datenquellen-Spalte ergänzt. So weiß man schon einmal, wann welcher Schlüssel zu welchem Zeitpunkt aus welcher Quelle kam. Der technische Schlüssel besteht in der Regel aus einem Hashkey, der aus den fachlichen Schlüsseln gebildet wird. In vielen Datenbanken sind entsprechende Funktionen bereits vorhanden und können auf einfache Weise verwendet werden.

LINK

In diesem Objekttyp werden alle Beziehungen zwischen den HUBs gespeichert. Was in der 3. Normalform der Fremdschlüssel ist, wird hier in ein eigenes Datenbank-objekt ausgelagert.

Der Vorteil: Bei Veränderung der Zuordnung (beispiels-weise des Vertreters bei einem Kunden) wird über die auch in diesem Objekttyp vorhandene Zeitstempel- und Datenquellen-Spalte ein Nachvollziehbarkeit protokolliert. Eine Protokollierung per Definition so zusagen.

SATELLITE

Hier werden Informationen zu einem HUB oder einem LINK abgelegt, beispielsweise der Name des Kunden oder das Datum des letzten Kundenbesuchs des Vertreters. Durchaus auch, welchen Preis ein Artikel in einem Auftrag hat. Da auch dieser Objekttyp über eine Zeitstempel- und eine Datenquelle-Spalte verfügt, sind gleichartige Informationen aber aus unter-schiedlichen Datenquellen nachvollziehbar bzw. abgrenzbar.  Mit Hilfe dieser Objekttypen-Verbindungen lassen sich also sowohl Stamm- als auch Bewegungs-daten abbilden. So bekommen Stammdaten eine Historie und Bewegungsdaten eine eindeutige Struktur.

Einfach rein, aber schwieriger wieder raus

Das Prinzip ist simpel, es braucht aber Hilfsmittel, um den Daten Dschungel am Ende auch wieder zusammenzubringen.

Was für die IT, beziehungsweise den ETL-Prozess, der dahintersteht, eine tolle Sache ist, löst auf Anwenderseite eher Stirnrunzeln aus. Bei der Aufteilung in die drei Objekttypen können schnell eine Vielzahl an Tabellen und Beziehungen entstehen, die auch die Datenbank affinen Fachbereichskollegen schnell an ihre Grenzen stoßen lassen. Wie schon Konfuzius sagte: „Wer bei seinen Handlungen immer auf Vorteil bedacht ist, wird sich viele Feinde machen.“ Nun sind wir sicher weit ab von dem Verlangen nach Ärger, darum gibt es einige weitere Objekte, die auch dem Kollegen des Fachbereichs das Leben wieder einfacher machen. Wir erweitern den Data Vault um einige Hilfsobjekte und erlangen so einen Business Vault, also ein Datenmodell, mit dem auch der Fachbereich etwas anfangen kann.

Point-in-Time Table (PIT)

Um zu jedem Zeitpunkt zu wissen, wann welcher technische oder fachliche Schlüssel der Satelliten-Informationen zu einem HUB zu welchem Zeitpunkt gültig war, kann eine Point-in-Time-Table verwendet werden. Die PITs sind eine Hilfe, um in einem komplexen Datenmodell vor allem die Performance zu steigern. Sie beinhaltet alle Timestamps der Satelliten zu allen Zeitpunkten der zu einem Hub gespeicherten Informationen. Somit sind sowohl Slowly Changing Dimensions vom Typ1 als auch Typ2 abbildbar.

Bridges

Brückentabellen (Bridges) dienen wie die PITs dazu, Abfragen an die Daten sowie das System selbst im Hinblick auf den Durchsatz zu verbessern. Im Gegensatz zu einer PIT, die sich einem einzelnen HUB widmet, sind Bridges gedacht, um mehrere Schlüssel aus HUBS und LINKS in einer Tabelle zu bündeln. So ist ein einfacherer Zugriff auf übergreifende Informationen möglich.
Bridges sollten eher keine fachlichen Schlüssel der HUBS enthalten, da es sonst zu einer höheren Anzahl an Sätzen und somit zu Performanceverlusten führt.

Business Hubs/Derived Tables

Dieser Objekttyp ist dann sinnvoll einzusetzen, wenn Informationen in aggregierter Form oder aus unterschiedlichen Datenquellen zusammengeführt werden sollen. Wie schon bei Pits und Bridges, steht auch hier der Gewinn an Performance im Vordergrund. Abzuwägen bei der Verwendung dieser Form ist zwischen dem Zeitgewinn und der Notwendigkeit des Aufbaus. Manchmal ist weniger mehr.

Ich habe bereits einiges an Erfahrung in dieser Technik gesammelt und gebe Ihnen gerne Tipps dazu. Am besten in einem persönlichen Gespräch. Ich freue mich, wenn Sie mir dazu einen Terminvorschlag an kontakt@mip.de schicken.

Ihr 

Ulrich Drexelius
Principal Consultant


Das könnte Sie auch noch interessieren

Wissen & Praxis

Db2 Tipp – SQL OLAP Funktionen

OLAP-Funktionen sind sehr praktische SQL-Funktionalitäten, die ich oft und gerne in Projekten verwende und deshalb

Eine Starke Marke

mip-indoor

Sie sind auf der Suche nach einer passenden Hardware für Ihre IT-Landschaft? Gerne beraten wir Sie und zeigen Ihnen die Vor- und Nachteile der verschiedenen Hardwarelösungen. Wir finden das passende Produkt für Ihre spezifischen Bedürfnisse.

mip-indoor