Technical Solution Architect – Data Warehouse Automation
DIE AUFGABE
Bei diesem 8-monatigem Projekt wurde eine Data Warehouse Automation Solution mit Hilfe von Apache Spark und Scala implementiert. Durch den Einsatz eine Hadoop Clusters (Cloudera Distribution) sollten auch große Datenmengen performant verarbeitet werden
Wie im agilen Ansatz üblich sind die Anforderungen in einem Product Backlog definiert und priorisiert. Zur Abstimmung der Data Vault Architektur bestand stets ein enger Kontakt mit dem Plattform Architekten.
Durch die Implementierung eines Minimal Models (minimales Data Vault Modell, welches alle relevanten Modellkonstellationen enthält) konnte im Entwicklungsteam das Know-How zu Data Vault wesentlich gesteigert werden. Außerdem unterstützte dieses Modell die teil-automatisierte Testausführung
Die entwickelte Data Warehouse Automation Solution generiert alle notwendigen Artefakte und ETL Routinen. Eine weitere Aufgabe war die Weiterentwicklung der Deployment-Routinen inkl. der Continuous Integration Pipelines in Jenkins.
Der Support bei der Data Vault Modellierung wurde von den Mitarbeitern sehr geschätzt.
DIE HERAUSFORDERUNGEN
Der Entwurf und die Implementierung der Data Warehouse Automation Solution auf Basis des Hadoop Stacks stellte eine besondere Herausforderung dar. Insbesondere die Datenprozessierung von wenigen Daten (neben den vorhandenen Big Data Datenvolumen) stellte hierbei eine Besonderheit dar. Dies entgegneten wird mit eine möglichst detaillierten Konfigurierbarkeit (u.a. shuffle.partitions; coalesce/repartition; etc.) auf ETL Job Level Ebene.
Eine wesentlichen Anforderung an die Solution war die Einhaltung des KISS Prinzips. Hinsichtlich der Anforderungsanalyse galt es stets zu entscheiden, was ist eine allgemein-gültige Anforderung welches in der Solution implementiert wird. Den Anwendern der Solution (hier Data Warehouse Entwickler) haben die Möglichkeit flexibel eigene Skripte in die Datenprozessierung aufzunehmen umso spezielle Anforderungen abzubilden.
Das Projekt lief bereits etwa 1 Jahr als wir hinzugezogen wurden. Als Herausforderung stellte sich dar, dass im Entwicklerteam der Data Warehouse Automation Solution wenig Know-How zum Thema Data Warehouse im Allgemeinen und Data Vault im Speziellen vorlag. Dies lösten wir durch die Erstellung eine Minimal Models, welches alle notwendigen Modellelemente und Konstellation des Projektes vereinfacht darstellt. Dieses Minimal Model diente fortan als Schulungsmaterial. Weiterhin verhalf das Minimal Model die Testautomatisierung voranzutreiben.
Im Projekt gab es historische bedingt eine hohe Zahl von Bugs in der Implementierung. Neben der Weiterentwicklung von Features waren wir wesentlich für das Fixen der bestehenden Bugs zuständig. Damit einher ging der Ausbau von Unit-Tests und Code-Refactoring mit dem Ziel die Code-Qualität insgesamt wesentlich zu steigern.
IHR UNTERNEHMEN PLANT AUCH DIE ENTWICKLUNG EINER DATA WAREHOUSE AUTOMATION LÖSUNG?
Sie benötigen aber noch weiteres Know-How? Dann nehmen Sie Kontakt mit uns auf. Gerne beraten wir Sie und finden gemeinsam die passende Lösung für Ihre Herausforderungen bei der Entwicklung einer neuen Data Warehouse Automation Lösung.
Datenschutz ist uns wichtig. Ihre E-Mail wird nur für die Beantwortung Ihrer Anfrage genutzt. Weitere Informationen finden Sie in unserer Datenschutzerklärung.