Übertragung der Unternehmensdaten ins Data Warehouse - Business Intelligence Umsetzung | www.iBusiness-Intelligence.org

3.2.5. Übertragung der Unternehmensdaten ins Data Warehouse

Die Übertragung der Daten von den Quellsystemen ins Data Warehouse ist meist der aufwendigste Schritt bei der Entwicklung und Implementierung eines Data Warehouse und stellt die Grundlage für ein solides Data Warehouse dar. Nur ein Data Warehouse mit einer hochwertigen Datenbasis ermöglicht die Gewinnung von Erkenntnissen für die Unternehmenssteuerung. (vgl. TecChannel, 2009, S. 327) Die vorhandenen Unternehmensdaten sind oft eine Herausforderung bei deren Nutzung für die Unternehmenssteuerung, da sie meist gravierende Qualitätsmängel vorweisen, wie z. B. mehrfach vorkommende, fehlende oder falsch verknüpfte Daten. Dazu stellt die Heterogenität der Quelldaten eine weitere Herausforderung dar. Die Daten liegen in den verschiedenen Quellsystemen in unterschiedlichen Formaten vor. Entsprechend gilt es, die Daten der Quellsysteme für die aufbereitete Nutzung in einen einheitlichen, fehlerfreien und konsistenten Zustand zu überführen. Dabei werden die Daten aus den Quellsystemen in ein themenorientiertes und analysefähiges System, dem Data Warehouse, überführt. (vgl. TecChannel, 2009, S. 209 f.). Dieser Vorgang, ETL-Prozess, beinhaltet somit «[...] die Extraktion, die Transformation und das Laden von Daten aus den Quellsystemen in das Data Warehouse»( Bachmann & Kemper, 2011, S. 103).

Der ETL-Prozess aus TecChannel, 2009, S. 210
Abbildung 35:«Der ETL-Prozess»47

Im ETL-Prozess findet u. a. eine Fehler- und Plausibilitätsprüfung statt, die das Laden von fehlerhaften Daten in das Data Warehouse verhindert. Die Extraktion und die dabei stattfindende Überprüfung basiert dabei auf Regelwerken, sogenannte Business Rules, welche vorgeben, welche Daten extrahiert werden und was dabei sichergestellt werden muss. Dabei werden Fehler in den vorgelagerten Quellsystemen identifiziert und bereinigt. Empfehlenswert dabei ist aber, deren Entstehung bereits in den Quellsystemen zu identifizieren und zu beheben. Neben einer sauberen Daten-Architektur kann der ETL-Prozess dazu beitragen, die Datenqualität in allen Systemen zu optimieren. Dafür müssen die Informationen zu Fehlern in den Quellsystemen entsprechend weitergegeben und genutzt werden, damit die Qualität der Daten nachhaltig erhöht werden kann. (vgl. Bachmann & Kemper, 2011, S. 103)

Der ETL-Prozess umfasst alle Aktivitäten zur Umwandlung der operativen Daten in dispositive Daten. In einem ersten Schritt werden die Daten aus den operativen Systemen geladen, selektiert, zwischengespeichert und von Mängeln befreit. Während dieser Filterung werden syntaktische und semantische Mängel behoben. Bei Bedarf werden die Mängel manuell bereinigt und/oder deren Ursachen erhoben. Der Filterungsprozess kann auch zur Fehlerbereinigung in den Quellsystemen führen, wodurch auch die Datenqualität nachhaltig verbessert werden kann. In einem zweiten Schritt werden die gefilterten Daten zusammengeführt. Die Harmonisierung der verschiedenen Daten führt zu ersten dispositiv verwendbaren Daten. Sie weisen dafür bereits die richtige Granularität auf und können deshalb für betriebswirtschaftlich sinnvolle Interpretationen auf der detailliertesten Ebene verwendet werden. Bei der Zusammenführung der Daten müssen diese als Vorbereitung für die physische Integration ins Data Warehouse System syntaktisch und betriebswirtschaftlich auf das Zielsystem abgeglichen werden. In einem dritten Schritt werden die Daten aggregiert und dabei werden die gefilterten und harmonisierten Daten um Verdichtungsstrukturen erweitert. Dabei können die Daten mit Merkmalen ausgezeichnet oder mit antizipierbaren Auswertungsvarianten („Kunden“, „Kundengruppe“) versehen werden. Für die Aggregierung der Daten werden Dimensionshierarchien verwendet, welche eine flexible Anpassung der Aggregierung der Daten erlauben (z. B. bei sich veränderten Marktbedingungen oder -anforderungen oder Sortimentsanpassungen), dadurch Flexibilität zulassen, aber mittels Veränderungs- und Gültigkeitsstempeln die Nachvollziehbarkeit trotzdem sicherstellen. Im vierten Schritt erfolgt endgültig eine Ablösung vom Paradigma der strikten Trennung von Daten und Programmlogik. Mit Hilfe dieses Schrittes, der Anreicherung, werden betriebswirtschaftliche Kennzeichen berechnet und in die Datenbasis integriert. Dabei können sowohl harmonisierte Daten der gewünschten Granularität wie aber auch bereits aggregierte Daten verwendet werden. (vgl. Kemper, Baars, & Mehanna, 2010, S. 26-38)

Transformationsprozess eines Data Warehouse Systems aus Kemper, Baars, & Mehanna, 2010, S. 38
Abbildung 36:Transformationsprozess eines Data Warehouse Systems48

Dispositive Daten stehen nach der Harmonisierung für unterschiedliche Auswertungszwecke und zur Weitergabe an eine Vielzahl von Nutzern zur Verfügung. Dies wird im Data Warehouse Konzept auch als die zentrale Datenhaltungskomponente bezeichnet, das Core Data Warehouse (C-DWH). Dieses beinhaltet alle für die Analysen wichtigen Daten in einem Datenlager (Sammel- und Integrationsfunktion), ermöglicht direkte Auswertungen für Analysen (Auswertungsfunktion) und versorgt alle nachgeschalteten Data Marts mit Daten (Distributionsfunktion). Direkte Analysen über das Core Data Warehouse sind in der Praxis aber auf Grund von negativen Erfahrungen, insbesondere der dadurch zusätzlichen Belastung der Systemleistung des Data Warehouse Systems zurückgegangen. Dieser Trend wird durch die immer grösser werdenden Datenbestände verstärkt. (vgl. ebd. S. 34).

Für die Aufbereitung der Daten zu dispositiven Daten und der Gewährleistung der Bereitstellung dieser wird im Unternehmen Meta-Wissen zu den verschiedenen Transformationsschritten, ihren Arbeitsschritten sowie ihren Werkzeugen benötigt (Vgl. Anhang B). Dieses Meta-Wissen sollte im Sinne eines unternehmensweiten Wissensmanagement auch als Daten gespeichert werden. (vgl. Kemper, Baars, & Mehanna, 2010, S. 47 f.) «In der Datenverarbeitung werden unter Metadaten allgemein die Arten von Informationen verstanden, die für die Analyse, den Entwurf, die Konstruktion und die Nutzung eines Informationssystems erforderlich sind […]. Somit beschränken sich Metadaten […] nicht allein auf die Entwicklung, sondern werden in allen Phasen des BI-Lebenszyklus generiert, verwaltet und genutzt.» (Ebd. S. 47 in Einbezug von Vaduva & Vetterli, 2001, S. 273 und Staudt, Vaduva, & Vetterli, 1999, S. 7).



Publizieren auf TwitterGoogle+Facebook
 XingLinkedIn