Ist Data Vault eine moderne Lösung für bestehende Herausforderungen im Data Warehouse Umfeld? Dafür lohnt sich ein Blick auf die zwei größten Probleme: die Entwicklungsgeschwindigkeit (time to market) und die Datenqualität. Ich erkläre Ihnen mit diesem Blogartikel, um was es sich bei Data Vault handelt, welche Vorteile es birgt und wie Sie bestehende Probleme damit lösen.

Was ist Data Vault ?

Data Vault ist eine Modellierungstechnik, die in den 1990er Jahren von Dan Linstedt entwickelt wurde. Wie definiert er den Begriff? (Quelle: https://danlinstedt.com/solutions-2/data-vault-basics/)

The Data Vault is a details oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and star schema. The design is flexible, scalable, consistent and adaptable to the need of the enterprise. It is a data model that is architected specifically to meet the needs of enterprise data warehouses.

Data Vault setzt den Fokus auf die Bedürfnisse des Unternehmens. Ein großer Vorteil – denn es ermöglicht eine flexible und aufwandsarme Anpassung der Data-Warehouse-Lösung. Im Alltag wirkt sich das vor allem positiv auf die eigene Bilanz aus. Typische Data-Warehouse-Konzepte wie Inmon und Kimball steigen mit der Zeit in ihrer Komplexität. Damit geht eine Kostensteigerung bei notwendigen Erweiterungen einher. Ähnlich hohe Ausgaben sind auch bei Änderungen am Data Warehouse zu erwarten. Die umfangreichen Implementierungs- und Testzyklen sorgen für eine Kostenexplosion und die IT wird zusätzlich eine lange Liste von Abhängigkeiten und Auswirkungen erstellen.

All das ist nicht mehr zeitgemäß, denn die Unternehmen müssen ihr Geschäft in immer kürzeren Zyklen transformieren. Was ebenfalls wichtig ist: Sie müssen sich an die aktuellen Marktbedürfnissen anpassen. Das muss sich dann auch im Data Warehouse widerspiegeln. An diesem Punkt setzt Data Vault an. Es setzt – aufgrund seiner Architektur und Methodik – genau diese Anforderungen um.

ÜBERLEGEN SIE DATA VAULT EINZUSETZEN?

Vereinbaren Sie noch heute ein kostenloses Erstgespräch mit unseren Experten

Vorteile von Data Vault

Data Vault bietet viele positive Aspekte für das Unternehmen. Diese stelle ich Ihnen kurz vor.

Vorteile für das Business

Data Warehousing ist kein IT Selbstzweck. Ziel ist vielmehr die maximale Unterstützung des Unternehmens mit der Bereitstellung aller notwendigen und integrierten Daten für Analysen und Berichtswesen. Was bedeutet das für Unternehmen konkret:

  • Verwaltung und Einhaltung von Compliance Anforderungen (Basel, BCBS 239)
  • Aufdeckung von Geschäftsproblemen, die vorher nicht sichtbar waren
  • Massive Reduzierung von Entwicklungszeit bei der Implementierung von Business Anforderungen
  • Frühere Return of Investment (ROI)
  • Skalierbares Data Warehouse
  • Nachvollziehbarkeit aller Daten bis zum Quellsystem

Technische Vorteile

Data Vault hat auch in technischer Hinsicht einige positive Aspekte zu bieten. Dabei handelt es sich um:

  • Near-Real-Time Beladung (neben klassischen Batch Lauf)
  • Big Data Processing (>Terabytes)
  • Nahtlose Integration von NoSQL/unstrukturierten Daten
  • Iterative, agile Entwicklungszyklen mit inkrementellen Ausbau des DWHs
  • Wenige, automatisierbare ETL Patterns

Data Vault Architektur

Data Vault verfolgt mit der Top-Down-Architektur und der Bottom-Up-Implementierung einen hybriden Ansatz. Das ermöglicht die Definition einer optimalen und modernen Architektur, begrenzt und kontrolliert aber gleichzeitig den Implementierungsumfang. Das führt zu früheren Releases – Stichwort: Agile Data Warehouse.

Die Data-Vault-Architektur besteht dabei im Wesentlichen aus drei Schichten, auch „Layer“ genannt:

  • Staging Layer: sammelt die Rohdaten aus den Quellsystemen ein
  • Data Warehouse Layer: modelliert als Data Vault Modell und enthält
    • Raw Data Vault: Speicherung der Rohdaten
    • Business Data Vault: enthält harmonisierte und transformierte Daten auf Basis von Geschäftsregeln und ist optional
    • Metrics Vault:Speicherung von Laufzeitinformationen und ist optional
    • Operational Vault: Speicherung von Daten, welche direkt von operativen Systemen in das DWH geschrieben werden und ist ebenfalls optional
  • Information Mart Layer: modelliert als Star Schema und/oder anderen Modellierungsverfahren und stellt Informationen für Analyse und Berichtswesen zur Verfügung
Data Vault Architecture

Aufbau einer Data Vault Architektur

Data Vault Komponenten

Ich stelle Ihnen kurz eine sehr fokussierte Erklärung zu den einzelnen Hauptkomponenten eines Data-Vault-Modells vor. In späteren Artikeln werde ich darauf noch detaillierter eingehen.

Hub
Speicherung der eindeutigen Business Keys, zum Beispiel Kundennummer oder Vertragsnummer

Link
Physische Repräsentation der Many-to-Many-Beziehungen zwischen zwei oder mehreren Business Keys (Hubs)

Satellite
Speicherung aller deskriptiven Informationen zu einem Business Key (Hub) oder einer Beziehung (Link)
Die Historisierung erfolgt ähnlich wie in einer SCD Type 2

Neben klassischer Batch-Verarbeitung unterstützt die Architektur auch Near-Real-Time-Loads. Damit lassen sich auch unstrukturierte/NoSQL-Datenbanken anbinden. Was ist jedoch einer der größten Unterschiede im Vergleich zu typischen Data-Warehouse-Architekturen wie Inmon oder Kimball? Die Geschäftsregeln – auch Business Rules genannt – im Business Data Vault sind im Information Mart Layer eingesetzt. Die Implementierung ist somit möglichst nah zum End User. Ein Grund, warum beim Data Vault von einem „Source of Facts“ und nicht „Source of Truth“ gesprochen wird, liegt in der „späten“ Abbildung der Geschäftsregeln und der Beladung des Data Warehouses. Daten werden exakt so abgebildet, wie sie im Quellsystem vorliegen. Ein weiterer Aspekt: Das unveränderte, vollständige und historisierte Laden der Quelldaten erfüllt die 100%ige Audit-Fähigkeit.

In Data Vault unterscheiden wir zwischen “Hard business rules” und “Soft business rules”. Vereinfacht gesagt bedeutet das:

Hard business rule

  • Technische Regeln, die korrekte Datentypen sicherstellen
  • Anwendung: Extraktion von Daten aus dem Quellsystem und deren Laden in die Staging Area
  • Faustregel: Hard business rules ändern niemals die Bedeutung der Daten, sondern nur die Art, wie sie gespeichert werden

Soft business rule

  • Abbildung der Geschäftsanforderungen
  • Ändert die Bedeutung der Daten, beispielsweise Aggregierung oder Neuberechnung einer KPI
  • Definieren, wie die Daten aggregiert und konsolidiert werden
  • Definieren, wie die Daten transformiert werden, um die Anforderungen seitens des Unternehmens zu erfüllen
Data Vault Architecture Business Rules

Überblick über „hard business rules“ und „soft business rules“

In klassischen Data-Warehouse-Systemen führen die früh angewandten Business Rules – Transformationen – zu umfangreichen Abhängigkeiten. Das ist einer der Gründe, warum Anpassungen oft mit hohen Aufwand und Komplexität verbunden sind. Das führt zu einem Konflikt mit dem Anspruch von Data Warehouses. Nur wenn sie zeitnah geänderte Geschäftsprozesse abbilden, stehen diese notwendigen Informationen dem Berichtswesen zur Verfügung.

In Data Vault werden neue oder geänderte Strukturen in einem neuen Satellite gespeichert. Der bestehende Satellite bleibt erhalten und stellt die historischen Daten auch in Zukunft zur Verfügung. Auch der ETL-Prozess für die historischen Daten hat weiterhin Bestand. Das ermöglicht die Beladung des bereits bestehenden Satelliten – beispielsweise für den Reload der Daten aus einem Archiv.

Was passiert mit den neuen Daten? Sie werden in ein neues Ziel geladen, um genau zu sein in den neu erstellten Satellite. Er ist damit eine modifizierte Kopie des “historischen” ETL-Jobs. Ein weiterer Vorteil: Es ist keine Änderung an bestehenden Prozessen notwendig. Somit entfallen das Reengineering und das umfangreiche Testen bestehender ETL-Jobs. Es ist nur eine Anpassung im Information Mart Layer notwendig, um Daten aus beiden Satelliten (wenn gefordert) konsolidiert zur Verfügung zu stellen.

Data Vault Vergleich mit anderen DWH Design Ansätzen

Für den Vergleich von Data Vault mit Inmon (3NF) und Kimball verweisen wir auf ein Blog Artikel von Roelant Vos (Quelle: http://roelantvos.com/blog/?p=580):

Data Vault Comparison

Vergleich von Data Vault mit klassischen Data Warehouse Architekturen

Zusammenfassung

Diese Artikel gibt Ihnen einen ersten Einblick in das Thema Data Vault. In Zukunft gehen wir auf weitere Teilaspekte im Detail ein.

Haben Sie Fragen oder Anmerkungen zum Blogartikel? Dann teilen Sie es uns gerne in den Kommentaren mit.

ÜBERLEGEN SIE DATA VAULT EINZUSETZEN?

Wenn Ihr Unternehmen nicht mehr viel Zeit und Geld in die Implementierung Ihres Data Warehouse investieren will, dann nehmen Sie Kontakt mit uns auf. Gerne beraten wir Sie über das Thema Data Vault und finden gemeinsam die passende Lösung für Ihre Herausforderungen.