Definition Big Data, und Big Data Warehouse - Business Intelligence Umsetzung | www.iBusiness-Intelligence.org

3.2.6. Big Data und Big Data Warehouse

Durch die Indexierung der Welt sowie der grossen Vernetzung sind in den letzten Jahren riesige Datenmengen entstanden. Dies hat auch mit der vielfältigeren und grösseren Nutzung des Internets zu tun. Diese riesigen Datenmengen und ihre Nutzung, u. a. für betriebliche und analytische Zwecke, werden dabei als „Big Data“ bezeichnet. Diese Bezeichnung ist heute in aller Munde, doch was ist „Big Data“ und was hat dies mit Business Intelligence oder/und Data Warehouse zu tun?

Big Data ist kein Widerspruch zu Business Intelligence, wie dies oft suggeriert wird (vgl. z. B. Kolb, 2012). Big Data verfolgt im Gegensatz zu Business Intelligence einen technologischen Ansatz und ist somit als Umsetzung und nicht als konzeptueller Ansatz zu sehen. Bei Business Intelligence geht es um das Verstehen des eigenen Geschäfts durch Daten und die Gewinnung von Information als Entscheidungsunterstützung für das Management und somit für die Unternehmenssteuerung. Bei Big Data geht es um die Nutzung von Daten mittels Erkennung von Datenmustern und der nachfolgenden Gewinnung von Erkenntnissen aus Datenmustern. IBM Big Data Expert Jeff Jonas sagt darum, dass die Daten zu einem sprechen müssen (vgl. Milligan & Salinas, 2013, S. 9 und Mayer-Schönberger & Cukier, 2013, S. 19). Big Data verfolgt in Bezug auf die Gewinnung von Erkenntnissen aus Daten die Fragestellungen „Was gibt es“ und „Was sagt es aus“, während sich der Ansatz von Business Intelligence auch mit dem „Für was“ und „Warum“ beschäftigt (vgl. Wikipedia, Big Data). «Big Data bezeichnet den Einsatz großer Datenmengen aus vielfältigen Quellen mit einer hohen Verarbeitungsgeschwindigkeit zur Erzeugung wirtschaftlichen Nutzen» (Wikipedia, Big Data). Entsprechend werden die Herausforderungen aus technologischer Sicht betrachtet: «Problematisch sind dabei vor allem die Erfassung, die Speicherung, die Suche, die Verteilung, statistische Analyse und die Visualisierung von großen Datenmengen. […] Kritik gibt es an "Big Data" vor allem dahingehend, dass die Datenerhebung und -auswertung oft nach technischen Aspekten erfolgt, [..] » (Ebd.). Nicht alle Daten sind jedoch für die Erkenntnisgewinnung für ein Unternehmen gleichermassen wertvoll. Eine grössere Datenmenge bedeutet demzufolge nicht automatisch auch eine qualitativ bessere Datenbasis für die Erzeugung von Informationen. (vgl. ebd.)

Der Ansatz von Big Data vermittelt technologische Ansätze zur Speicherung von grossen Datenmengen sowie zur betrieblichen Nutzung, Auswertung und Visualisierung. Die Speicherung der grossen Datenmenge erfolgt in nicht relationalen Datenbanksystemen, wodurch die Daten schneller verwendet werden können. Diese neuen Datenbanksysteme wurden insbesondere durch Internetfirmen wie Google, Amazon, Yahoo und Facebook gefördert, welche die meisten dieser als Open Source Projekte auch veröffentlichten (vgl. u. a. Warden, 2011, S. 13 und Mayer-Schönberger & Cukier, 2013, S. 6). Diese nicht relationale Speicherung erlaubt, die Daten erst bei Abruf in Verhältnis zueinander zu bringen. Dies ermöglicht die flexible Erzeugung von Datenbeziehungen und somit auch Datenmuster und ermöglicht die Identifizierung von Mustern in der Datennutzung. Damit können Daten nicht nur in Echtzeit abgerufen, sondern auch flexibel segmentiert und gefiltert werden, ohne dabei die Daten zu verändern.

Diese Mustererzeugung geschieht mittels Algorithmen. Ein Algorithmus kann als «mathematisch kodierte Handlungsvorschrift zur Lösung eines Problems» (Binswanger, 2013, S. 8) umschrieben werden. Er hat den «Auftrag, in einer bestimmten Situation X die Handlung Y zu vollziehen» (Ebd.) und geht auf die britische Mathematikerin Ada Lovelace zurück (vgl. ebd.). Algorithmen sind Regel und Regelwerke, und haben immer eine Eingabe (Situation X, Input-Information) und eine Ausgabe (Handlung, Output-Information). Algorithmen sind Navigations- bzw. Steuerungsinstrumente (vgl. ebd.) in Software- und Big Data-Systemen. Algorithmen sind die Abbildung und Nutzung von digitalisierten und dadurch automatisierbaren Erfahrungen. Bei Big Data Systemen kann der Nutzungsprozess der gemachten Erfahrungen (Verknüpfte Nutzung von Algorithmen) flexibel, automatisiert gestaltet und dadurch laufend den Bedürfnissen angepasst werden. Je mehr Daten zur Verfügung stehen, desto genauer werden deren Ausgabe. (vgl. ebd.)

Big Data-Visualisierungstool aus Clark, 2013
Abbildung 37:Big Data-Visualisierungstool49

Big Data verfolgt den Ansatz der „Quantifizierung der Welt50, bei dem (alle) Wörter, Lokationen (Orte) und Interaktionen zu Daten werden. Es kommt zu einer Digitalisierung und „Datafication“ von allem (vgl. Mayer-Schönberger & Cukier, 2013, S. 79 ff.). Big Data ist ein Resultat der Entwicklung der Technologien und des Internets (vgl. Kapiteln zur Ausgangslage).

Die Unterscheidung zwischen dem Wert von Daten für die betriebliche Nutzung (operative Daten) und dem Wert von Daten als Unterstützung für die Entscheidungsfindung (dispositive Daten) ist insbesondere bei „Big Data“ wichtig für deren Verständnis und Nutzung. Mittels Big Data-Systemen ist es heute möglich, dass Amazon Bücher empfiehlt, Google die relevanteste Website für ein Thema eruiert, Facebook die Vorlieben ihrer Nutzer kennt und Xing weiss, wer mit wem geschäftlich verbunden ist (vgl. Mayer-Schönberger & Cukier, 2013, S. 45). Gerade für das Kundenbeziehungsmanagement und die Ausgestaltung der eigenen Dienstleistungen oder des eigenen Sortiments sind solche Systeme für ein Unternehmen sehr interessant, da sie viele Daten über die Interessen und das Kaufverhalten von Kunden beinhalten können. Die Nutzung solcher Systeme führt somit zu wertvollen Daten, welche als dispositive Daten für die Unternehmenssteuerung genutzt werden können.

Big Data als Unterstützung der Unternehmenssteuerung sollte im Rahmen des konzeptionellen Ansatz von BI gesehen und behandelt werden. BI liefert den Rahmen, um zielgerechtet Informationen den Managementebenen zur Verfügung stehen. Der Big Data Ansatz ist als Mittel analog dem Data Warehouse Ansatzes zu sehen. Ohne Bedürfnis (Fragestellung) und Zielgruppe aus Daten Informationen zu gewinnen, führt nicht gezielt und effizient zu Informationen für die Unternehmenssteuerung und zu Wissen (vgl. Kapitel „Informationsgewinnung aus Daten“). Durch die verbreitete Annahme, dass Daten von sich aus Informationen vermitteln, kann es auch zum Missverständnis kommen, dass die Daten den Zweck darstellen. Bei einer rein technologischen Betrachtung der Gewinnung von Informationen und Erkenntnissen aus Daten für die Unternehmenssteuerung, wie dies heute oftmals suggeriert wird, kann Big Data darum als Konkurrenz zu BI verstanden werden. Dies hat damit zu tun, dass dabei BI als Synonyme von Data Warehouse verstanden wird, und umgekehrt, was es aber eben genau nicht ist (vgl. Howson, 2008, S. 2 und vorgängiges Kapitel). Big Data kann aus zwei Perspektiven beschrieben werden.

Definition Big Data - Was ist Big Data?

Aus Sicht der Entstehung beschreibt Big Data…
… den enormen Zuwachs der Daten in Folge der Indexierung und Verknüpfung der Welt und ihrer Objekte. Diese „Big Data“ zeichnen sich durch das riesige Daten-Volumen, eine hohe Verarbeitungsgeschwindigkeit bei deren Nutzung und eine hohe Vielfalt aus. Diese Eigenschaften machen neue, innovative Formen der Informations- und Wissensgewinnung möglich, welche für die Entscheidungsfindung genutzt werden können (In Anlehnung an Definition von Gartner, Gartner IT Glossary – Big Data).

Aus Sicht der Informationstechnologien beschreibt Big Data…
… „nur“ eine technologische Weiterentwicklung in der Datenbanktechnologie und die daraus entstehenden (Mehr-) Nutzen. Diese neuen Datenbanktechnologien machen es möglich, riesige Datenmengen zu speichern und in Echtzeit darauf zuzugreifen. Die Art der Speicherung der Daten unterscheidet sich dabei wesentlich von herkömmlichen Datenbanktechnologien. Die Herstellung der Beziehungen bzw. Verhältnissen zwischen den einzelnen Daten geschieht dabei erst beim Zugriff und die Verhältnisse der Daten zueinander sind somit nicht fix und starr vorgegeben, wie dies bei klassischen relationalen Datenbanken der Fall ist. In nicht-relationalen Datenbanken werden die Daten so granular und reinförmig wie möglich gespeichert und weisen keine fixen Verhältnisse zwischen ihren Datenentitäten auf. Dies erlaubt eine flexible Herstellung von neuen, bisher nicht ersichtlichen Zusammenhängen zwischen Daten und ermöglicht damit neue innovative Formen der Informations- und Wissensgewinnung.

Big Data betrifft somit auch die technologische Umsetzung eines zentralen Data Warehouse und ermöglicht Auswertungen direkt über das Core Data Warehouse, ohne dass es dabei zu grossen Einbussen in den Systemleistungen kommt. Dabei bleibt die Herausforderung der Übertragung der Daten von den operativen Systemen ins Big Data Warehouse bestehen. Die Daten müssen weiterhin aus den Quellsystemen extrahiert und ins Big Data Warehouse übertragen werden. Dieser Prozess ist auch bei Big Data Warehouse massgeblich für die danach vorhandene Datenqualität und somit die nachfolgende Nutzung. Dazu bietet Big Data im Rahmen der Quellsysteme neue, zuvor nicht dagewesene Möglichkeiten für die Unternehmenssteuerung. Dies betrifft z. B. die Identifikation von neuen, bisher unbekannten Zusammenhängen in den operativen Daten und damit der Entdeckung von neuem Wissen.

Die Nutzung von Big Data im Rahmen von Business Intelligence ist noch sehr neu und entsprechend wird es spannend sein, wie Big Data innerhalb der Business Intelligence Umsetzungen genutzt wird. Bereits heute bieten viele Hersteller Big Data im Rahmen von Business Intelligence Lösungen an, Literatur darüber gibt es aber noch kaum.

IBM Produktportfolio für Big Data, inkl. Data Warehousing
Abbildung 38:IBM Produktportfolio für Big Data, inkl. Data Warehousing51


Anmerkung des Autors zur Bezeichnung "Datenbank"

Die Bezeichnung „Datenbank“ impliziert im deutschen Sprachgebrauch die Datenhaltung mit Hilfe von Tabellen. Die Strukturierung und Datenhaltung in nicht-relationalen Datenbanken erfolgt jedoch genau nicht mit Hilfe von (klassischen) Tabellen (-Systemen).
Im Bezug auf Big Data Systeme, sei es für die Datenhaltung von operativen wie auch von dispositiven Daten, wird deshalb vorgeschlagen, die Bezeichnungen Datenhaltung und Datenverwaltung zu verwenden ("nicht-relationale Datenhaltung").



Publizieren auf TwitterGoogle+Facebook
 XingLinkedIn