Modernisierung

Balanceakt.

Viele Lösungsanbieter versuchen, die Unternehmen zum radikalen Austausch ihrer bestehenden Data Warehouses zu überreden. Angemessener ist meist eine ausgewogene Lösung aus Alt und Neu.

* Von Gregor Zeiler 

 

 

Um sachlich beurteilen zu können, ob das bestehende Data Warehouse (DWH) wirklich komplett ausgedient hat und die Investition in ein neues nötig ist, sollten Entscheidungsträger sich erst einmal fragen: Was sind denn die tatsächlichen Anforderungen an analytische Datenmanagementlösungen?

Die traditionellen DWH-Lösungen wurden in den Unternehmen in der Regel darauf ausgerichtet, eine einheitliche Datenbasis («Single Point of Truth») für alle Analysebedarfe darzustellen. Dabei waren die wichtigen Nutzenaspekte:

  • Daten aus mehreren Datenquellen zusammenführen und vereinheitlichen,
  • eine gute Datenqualität,
  • die saubere Historisierung der Daten,
  • Data Governance und Compliance.

Angesichts des immer dynamischeren und volatileren wirtschaftlichen Umfelds erweist sich der Anspruch auf eine saubere Datenbasis zunehmend als schwer zu erfüllen. Fragestellungen beispielsweise zu neuen Produktlinien, Unternehmenszukäufen oder auch zur Steuerung von Vertriebskampagnen müssen sehr kurzfristig beantwortbar sein. 

Dementsprechend sollten analytische Lösungen zunehmend agil und flexibel sein, um die Bedarfe abdecken zu können. Die Reaktionsfähigkeit des DWH ist für Unternehmen in diesem Zusammenhang ein zentraler Erfolgsfaktor. 

Hier setzen die Befürworter für den Umstieg auf neue, dynamische DWH-Lösungen an: Die traditionellen Techniken lieferten zwar sauber konsolidierte, hochwertige und historisierte Daten, seien jedoch für die aktuellen Herausforderungen nicht immer agil und flexibel genug.

In vielen Unternehmen warten die Fachbereiche nicht mehr auf die Umsetzung durch die IT, sondern setzen auf Selfservice Business Intelligence. Ihr Argument: Wenn das starre, alte DWH zu langsam läuft, dann handeln wir selbst und nutzen Lösungen, die uns die Einbindung neuer, zusätzlicher Datenquellen einfacher ermöglichen.

Derartige Initiativen sind verständlich. Denn tatsächlich reicht die Aktualität der Daten aus einem klassischen DWH für viele Anwendungsfälle nicht mehr aus: Wenn ein Servicemitarbeiter zum Beispiel die Bestellungen des Kunden von gestern oder letzter Woche einsehen kann, nicht aber die von heute, hängt er im Beratungsgespräch unter Umständen in der Luft. Ebenso muss eine Bank im Fall eines Betrugsalarms in der Lage sein, eine Transaktion kurzfristig zu bearbeiten. In allen diesen Fällen müssen die Daten sehr schnell zur Verfügung stehen. 

Auch wird eine viel größere Bandbreite wichtiger Informationen benötigt, um die wachsenden Analyseanforderungen zu meistern. Eine wichtige Rolle spielen dabei zusätzliche Datenquellen außerhalb der Unternehmen. Beispielsweise nutzen Pharmakonzerne publizierte Forschungsdaten anderer Unternehmen, um Risiken und Fehlinvestitionen zu vermeiden. Diese Forschungsdaten werden in sogenannten komplexen Ontologien  abgelegt und zur Analyse entsprechend erschlossen.

 

Verantwortungsvoller Übergang.
Aber nicht nur komplexe externe Quellen spielen zukünftig eine große Rolle, sondern auch Daten, die über Datenmarktplätze in der Cloud zur Verfügung gestellt werden. Das Stichwort lautet hier: Open Data. Kommunen etwa beginnen damit, sehr viele Daten wie beispielsweise Kataster oder Topologieinformationen zur wirtschaftlichen Nutzung öffentlich, teilweise kommerziell bereitzustellen.

Muss aber wegen dieser vielen neuen Anforderungen die klassische DWH-Welt gleich komplett substituiert werden? Die Antwort lautet: nein. 

Bei einem verantwortungsvollen Übergang zu einem agileren und flexibleren DWH geht es mehr um das Ergänzen, Erweitern und Anreichern der bestehenden Lösungen und Architekturen als um ein komplettes Ersetzen. In einigen Bereichen macht auch das Kompensieren von Nachteilen Sinn: So kann ein sauber konsolidiertes traditionelles DWH durch die agile Unterstützung neuer Geschäftsanforderungen verbessert werden. Insgesamt sollten die entstehenden Lösungen folgende analytischen Kernanforderungen aus dem Geschäft erfüllen:

  • eine agilere Technik und Prozesse,
  • die Unterstützung von Selfservice-Funktionen im Unternehmen,
  • die Ermöglichung von Right-time-Prozessen (Near-Realtime) für mehr Aktualität der Daten im Vergleich zu reinen Batch-Abläufen,
  • vereinfachte Modellierung, Lösungsentwicklung und Qualitätssicherung.

 

Verbindung der Vorteile.
Die zukünftigen analytischen Datenmanagementlösungen verbinden die Vorteile der traditionellen DWH-Welt mit diesen neuen Möglichkeiten. Zudem ergänzen sie auch die Datenhaltung mit Technologien zur Verarbeitung von unstrukturierten oder semistrukturierten Daten. Eine neue eierlegende Wollmilchsau gibt es aber nicht. Vielmehr gilt es, die Stärken verschiedener Ansätze zu kombinieren.

Genau dieses Vorgehen empfiehlt auch Gartner mit dem Modell des Logical Data Warehouse (LDW): Das klassische DWH wird in diesem Fall mit Data Federation (Data Discovery/Self Service)-Komponenten und Big Data-Lösungen ergänzt. 

Jede dieser drei Säulen erfüllt bestimmte Anforderungen für sich auf eine sehr effiziente Weise. Die Kombination deckt die oben genannten Bedürfnisse in Gänze ab. Für jeden Anforderungsfall ist zu entscheiden, über welche der drei Säulen die optimale Umsetzung gegeben ist (siehe Grafik nächste Seite).

Existiert für einen Managemententscheid beispielsweise ein kurzfristiger Auswertungsbedarf, der nicht aus der bestehenden DWH-Lösung beantwortet werden kann, und für den eventuell zusätzlich noch weitere Datenquellen eingebunden werden müssen, so ist mit Säule zwei (Data Federation, Data Discovery/Self Service) ein viel schnellerer Umsetzungsweg als im klassischen DWH möglich.

Wächst aus dem kurzfristigen Auswertungsauftrag später ein regelmäßiger Auswertungsbedarf, so ist für das Unternehmen die Verlagerung der dafür nötigen analytischen Arbeit in das klassische DWH sinnvoll. Denn hier können die erforderliche hohe Beantwortungsleistung, die Datenqualität und die Historisierung auch langfristig gewährleistet werden.

Eine wichtige Botschaft für die Reform eines DWH lautet also, die Vorteile zu verbinden und je nach Anforderung die richtige der drei Säulen zu nutzen.

 

Stoßrichtungen der Modernisierung.
Der wichtigste Punkt bei der Modernisierung des DWH ist es sicher, die Architektur grundsätzlich fit für die Zukunft zu machen. Daneben geht es um die Automatisierung und Industrialisierung, die Ermöglichung von Selfservice für Fachanwender sowie technische Verbesserungen. 

Elementar ist es, in einem Big Picture die künftige Architektur der analytischen Datenmanagementlösung festzulegen. Dabei muss nicht jedes Projekt unbedingt alle Säulen aus dem obigen Ansatz abdecken. Bei der Architekturdefinition ist es eher wichtig eine Lösung zu schaffen, die offen ist und mit weiteren Technologiekomponenten über Metadaten kommunizieren kann. Die Reihenfolge des Ausbaus wird durch den unmittelbaren Nutzen der weiteren Komponenten bestimmt. 

Aber nicht nur das Big Picture ist für die Modernisierung wichtig. Weil viele klassische DWH-Lösungen schon lange bestehen, gibt es auch im Detail erheblichen Sanierungsbedarf. Denn die bestehenden Systeme sind meist über lange Zeit gewachsen. Die Dokumentation ist in vielen Fällen nicht mehr aktuell. Jede Änderung und Erweiterung ist aufwendig, weil früher viel weniger auf die Standardisierung geachtet wurde. 

Neue Modellierungsansätze wie zum Beispiel Data Vault  können die Einbindung neuer Datenquellen vereinfachen. Somit ist also auch in der Säule 1 im klassischen DWH einiges konzeptionell und architektonisch optimierbar.

In vielen Bereichen der Industrie und der Softwareentwicklung ist die Automatisierung wiederkehrender Aufgaben unter der Fahne der Digitalisierung bereits gang und gäbe. Für die Kreation klassischer Data Warehouse-Lösungen gilt das nicht: Hier ist die gute, alte Handarbeit zum Beispiel bei der Entwicklung von Datenflüssen noch sehr verbreitet. 

Zwar werden grafische Tools zur Modellierung eingesetzt, was die Übersicht und die Nutzbarkeit spürbar erhöht. Trotzdem werden im DWH-Bereich in der Regel hunderte oder sogar mehrere tausende zumeist sehr komplexer Aufgaben manuell gelöst. Und das geschieht, obwohl bekannt ist, dass gerade dieser Bereich zu einem der größten Aufwandsblöcke im Data Warehousing zählt – und kurioserweise weiter steigt: Laut dem «TDWI Benchmark Report – Organizational and Performance Metrics for Business Intelligence Teams» benötigt die ETL-Entwicklung neben der Berichtsentwicklung die meisten Ressourcen aus dem BI-Team. Generell gehen für Development und Testing 50 Prozent der gesamten Kapazität der Expertengruppe auf. Unter Hinzunahme von Wartung und Weiterentwicklung sind es in Summe gar 75 Prozent.

Bei der Verschlankung der Teams helfen sogenannte Data Warehouse Automation-Tools. Diese Softwarewerkzeuge automatisieren nicht nur die Entwicklung, sondern unterstützen zumeist auch im gesamten Lifecycle-Management der DWH-Lösung. Folge: Die Effizienz steigt, die Agilität und damit verbunden die Flexibilität nehmen deutlich zu.

Sicher kann die DWH-Automatisierung einen wesentlichen Beitrag zur Steigerung der Agilität leisten, doch ist es – wie bereits angesprochen – nicht sinnvoll, jede erdenkliche Anforderung im klassischen DWH umzusetzen. Ansätze wie etwa Data Federation oder die Virtualisierung sind oft schneller realisiert und für Ad-hoc-Bedarfe besser geeignet.

 

Selfservice und Governance.
Besteht die Möglichkeit, über Selfservice in den Fachbereichen die Analysedaten eigenständig anzureichern, sind viele Aufgaben durch die Business-Nutzer selbst lösbar. Damit erübrigen sich die in der Praxis oftmals langen Wartezeiten auf die Integration dieser Anforderungen im Data Warehouse. 

Das ist ein spürbarer Vorteil für die Anwender aus den Fachbereichen. Zwar müssen diese dann selbst eigene Arbeitszeit für die Aufbereitung der Daten aufwenden und können sich nicht mehr ausschließlich auf die Auswertung der Daten fokussieren. Trotzdem kommt der Selfservice-Ansatz in der Praxis den Bedürfnissen der Business-Anwender näher. 

Andererseits erweist sich die Governance in der Regel desto schwieriger und aufwendiger, je mehr Selfservice eingesetzt wird. Denn durch Selfservice kann der bewährte «Single Point of Truth»-Ansatz des klassischen DWH untergraben werden. Unternehmen, die beide Seiten in einem gewissen Umfang zulassen möchten, müssen Prozesse aufsetzen, die eine geeignete Governance sicherstellen.

Die moderne IT verändert den Rahmen für die Weiterentwicklung der existierenden DWH-Systeme grundlegend: Speicher wird immer günstiger; alternative Datenhaltungsoptionen benötigen keine spezialisierten Hardwarekomponenten mehr; Infrastrukturen, Plattformen und Software können bedarfsgerecht in der Cloud konsumiert, rasch erweitert oder auch wieder reduziert werden.

 

In-Memory, Hadoop, Cloud.
Früher wurde der Speicherplatz zumeist sehr sparsam und eingeschränkt eingesetzt, weil er sehr teuer war. Heute rechnen die IT-Experten nicht mehr durch, welche Datenaggregationen es wert sind, in-Memory (im Arbeitsspeicher des Computers) gehalten zu werden. 

Es werden komplette operative Lösungen samt der analytischen Applikationen für den In-Memory-Einsatz propagiert und mit Software wie etwa SAP HANA realisiert. Hierbei geht es primär um die Beschleunigung der Datenverarbeitung – ungeachtet der Relevanz und Aktualität der Daten. 

Doch es gibt ein Problem: Viele bestehende DWH-Lösungen verarbeiten riesige Datenmengen im zigfachen Terabyte-Bereich, die im täglichen Betrieb kaum oder gar nicht mehr genutzt werden. 

Da die aktuell genutzten Plattenspeicher aber für einen sehr hohen Durchsatz ausgelegt und daher auch teuer sind, rechnet sich ihr breiter Einsatz im klassischen DWH nicht.  

Anwenderunternehmen sollten also je nach Nutzung differenzieren: Die Experten unterscheiden hier zwischen «cold», «warm» und «hot data». Bei den «kalten» Daten, die extrem selten genutzt werden, ist der Zugriff auf die teure Infrastruktur nicht nötig. 

Spezielle Formen der effizienten Ablage großer Datenmengen, sogenannte Hadoop Cluster, können hier als wesentlich günstigere Speicheroption dienen. Hadoop hilft also nicht nur bei der Erweiterung um unstrukturierte Daten, sondern auch bei der Kostenoptimierung einer bestehenden DWH-Lösung.

Die Vorteile einer anderen innovativen Technologie, der Cloud, sind unbestritten. So schnell auf zusätzliche Rechnerleis-tung, Speicher oder auch bestimmte Software zugegriffen werden kann, so einfach lässt sich das auch wieder bedarfsgerecht reduzieren. Das Vorhalten von IT-Ressourcen zur Befriedigung maximaler Anwenderansprüche entfällt ebenso wie die teure Migration zu einer neuen Hardware. Die Datensicherheit ist zwar ein ständiges Thema, durch lokale Rechenzentren der Cloud-Anbieter aber verbessert. 

Bei Business Intelligence und Data Warehousing wird die Cloud bereits intensiv im Bereich der Reportingtools genutzt. Aber auch Entwicklungsumgebungen werden zusehends in die Cloud verlagert, da hier die Themen rund um die Datensicherheit nicht so pressant sind. Bei neuen Big Data-Technologien gilt Cloud Computing sogar als die präferierte Form. 

Fazit: Eine DWH-Modernisierung bedeutet nicht unbedingt das Ende der bewährten Lösungen. Vielmehr lassen sich diese meist mit zusätzlichen Tools ergänzen – und auch auf diese Weise das Potential der neuen analytischen Funktionen vollständig nutzen. So wichtig technische Quantensprünge auch sind: Die Verbesserungsmöglichkeiten stecken nicht nur in der Nutzung neuer Features, sondern auch in der Neugestaltung der Prozesse.

Data Warehouse

 

* Gregor Zeiler ist Senior Solution Manager Business Intelligence/Big Data beim IT-Dienstleister Trivadis.

 

 

Quelle: BUSINESS INTELLIGENCE MAGAZINE, www.bi-magazine.net 
© ProfilePublishing Germany GmbH 2016. Alle Rechte vorbehalten. 
Vervielfältigung nur mit Genehmigung der ProfilePublishing Germany GmbH

Business Intelligence Magazine: Springe zum Start der Seite