Aktives Analysesystem für die Wissensentdeckung in Daten - Business Intelligence Umsetzung | www.iBusiness-Intelligence.org

3.3.6. Aktives Analysesystem für die Wissensentdeckung in Daten

Das Big Data Warehouse und die Implementierung des OLAP-Ansatzes sind die Grundlage für die multidimensionale Datenhaltung und -auswertung. Mit dem Data Mining Ansatz existiert ein weiteres, tiefergehendes Konzept der Datenanalyse zur Gewinnung von Informationen. Dieser Ansatz sieht vor, aus einem umfangreichen Datenbestand interessante Muster und Zusammenhänge zu erkennen, welche für die Entscheidungsfindung oder als Vorbereitung von Handlungen genutzt werden können (vgl. Gabriel, Gluchowski, & Pastwa, 2009, S. 115). Der Ansatz von Data Mining und seiner Umsetzung bietet das Potential, nicht nur Steuerungsprozesse zu unterstützen, sondern auch Lernprozesse in einem Unternehmen zu fördern. Durch die Analyse eines vordefinierten Datenbestands kann Wissen generiert werden, das zu Handlungen, Entscheidungen und zur Rückführung ins Unternehmen als Wissen führen kann. (vgl. ebd. 117 f.)

Die Definition und Abgrenzung der Bezeichnung „Data Mining“ wurde in der Fachwelt ausgiebig behandelt. Dabei kristallisierte sich bisher keine eindeutige und allgemein akzeptierte Definition heraus (vgl. ebd. S. 120). Am verbreitesten ist das Verständnis von Data Mining «als ein strukturiertes, aus mehreren Teilschritten bestehendes Vorgehensmodell zur systematischen Datenanalyse [..]. Das Ziel dieser Analyse liegt darin, in einem definierten Datenbestand verborgene Muster zu erkennen, die im Hinblick auf die Beantwortung einer Frage- bzw. Problemstellung relevant sein können» (Ebd. S.120). Diese Definition wird u. a. auch von Mertens et al. vertreten, die in Data Mining einen Prozess sehen, «der aus einer Datenmenge implizit vorhandene, aber bisher unentdeckte, nützliche Informationen extrahiert» ( Mertens, Bissantz, Hagedorn, & Schultz, 1994 zitiert in Ebd. S.120), oder von Berry & Linoff, welche Data Mining als «a business process for exploring large amounts of data to discover meaningful patterns and rules» ( Berry & Linoff, 2011, S. 2) umschreiben. Berry und Linoff betonen dabei, dass der Prozess des Data Mining kein Anfang und Ende hat, sondern im Unternehmen ein fortlaufender Prozess ist, welcher mit vielen verschiedenen anderen Geschäftsprozessen interagiert (vgl. ebd.). Bei all diesen Definitionen wird vorausgesetzt, dass Informationssysteme dafür verwendet werden. Den Aspekt der Softwareorientierung rücken Hansen & Neumann in den Vordergrund. Sie umschreiben Data Mining als eine «[…] …software-gestützte Ermittlung bisher unbekannter Zusammenhänge, Muster und Trends aus dem Datenbestand sehr großer Datenbanken beziehungsweise des Data Warehouse. Dabei kann der Benutzer bestimmte Ziele vorgeben, für die das System angemessene Beurteilungskriterien ableitet und damit die Datenobjekte der Datenbank(en) analysiert» ( Hansen & Neumann, 2009 zitiert in Gabriel, Gluchowski, & Pastwa, 2009, S. 121). Einig ist die Fachwelt, dass das Data Mining die Entdeckung von neuem Wissen in Datenbeständen darstellt und damit Teil des „Knowledge Discovery in Databases (KDD)“-Prozesses, dt. Prozess der Wissensentdeckung in Datenbanken, ist (vgl. u. a. Gabriel, Gluchowski, & Pastwa, 2009, S. 13; Vercellis, 2010, S. 77; Wikipedia, Data Mining).

In der Folge wird Data Mining deshalb als Teilschritt des KDD-Prozesses (KDD) vorgestellt und deren Methoden kurz erläutert. Auf die technologische Implementation der Data Mining Methoden in Analysesysteme wird nicht eingegangen.

Fayyad, Piatetsky-Shapiro und Smyth beschrieben 1998 im AI Magazin73 einen neuen Ansatz für die Extraktion von Informationen aus Daten zur Wissensgenerierung, welcher auf Grund der rapid wachsenden Datenbestände der kommenden Jahre an Relevanz gewonnen hat (vgl. Fayyad, Piatetsky-Shapiro, & Smyth, 1996, S. 37). Aus ihrer Sicht stellt der KDD-Prozess den übergeordneten Prozess für die Entdeckung von verwendbaren Informationen in Daten dar. Data Mining beschreibt dabei einen Teilschritt dieses Prozesses und beschreibt Data Analyse Methoden, um Mustern in Daten erkennen zu können und diese zu extrahieren. Die Funktionsweise der Data Mining Methoden können dafür durch spezifischen Algorithmen in einer Anwendung abgebildet werden. Dies erlaubt die automaische, computergestützte Extraktion von neuen Informationen auf Grund von gegebenen Zusammenhängen und Mustern in Daten. (vgl. Fayyad, Piatetsky-Shapiro, & Smyth, 1996, S. 39)

«KDD is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data» ( Fayyad, Piatetsky-Shapiro, & Smyth, 1996, S. 40 f.).

Der KDD-Prozess, aus Fayyad, Piatetsky-Shapiro, & Smyth, 1996, S. 41
Abbildung 56:Der KDD-Prozess74

Der KDD-Prozess beinhaltet 9 Schritte:

1 Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich und Definition des Ziels Entwicklung des benötigten Verständnisses und Wissen für die betreffende Fachbereich und seine eingesetzten Quellsysteme. Identifizierung und Definition des (Prozess-) Ziels oder der Ziele aus Kundensicht
2 Datenauswahl Definition und Auswahl des benötigten Datenbestandes; Fokussierung auf eine Auswahl von Variablen oder Datenteilbestandes
3 Datenbereinigung und -vorbereitung Bereinigung der Daten (Fehlerbehandlung, Handhabung inkonsistenter Daten etc.) und Sammeln aller Daten für die Zusammenfügung
4 Datenreduktion bsw. -transformation Dimensionale Reduktion und Transformation der relevanten Daten für die Zielerreichung; Reduzierung der effektiv benötigten Variablen (bzw. Aufzeichnungsgrössen/Datengrössen, analog zu Messung und Messgrössen) und Identifikation von gleichbleibenden Daten
5 Auswahl der geeigneten Data Mining-Methoden für die Zielerreichung Auswahl der spezifischen Data-Mining-Methoden für die Erreichung des Ziels des KDD-Prozesses
6 Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll Auswahl der Data Mining-Algorithmen und Auswahl der Methodik für die Identifikation von Datenmustern; Entscheid, welche Modelle sinnvoll sind und welche passende Data Mining-Methoden eingesetzt werden soll
7 Data Mining Suche nach Mustern in einer bestimmten Darstellungsform oder mehreren Darstellungsformen; Klassifikation von Regeln und Regelbäumen und Auswahl der Clustering-Methoden
8 Interpretation der gewonnenen Erkenntnisse Interpretation der Resultate des Data Mining Prozesses; Wiederholung der Schritte 1 bis 7 für weitere Erkenntnisgewinnung; Visualisierung der Resultate
9 Handeln basierend auf neuem Wissen Nutzung des neu erworbenen Wissens für und bei zukünftigen Handlungen und Nutzung bei der Entscheidungsfindung; Festhalten und Weitergeben des Wissens für zukünftige Handlungen (Wissensmanagement); Überprüfung und Klärung von möglichen Konflikten mit bisherigem (extrahierten) Wissen im Unternehmen
Tabelle 10:KDD-Prozessschritte75

Der KDD-Prozess kann die mehrmalige Ausführung beinhalten und einzelne Schritte können ebenso wiederholt werden (z. B. Datenbereinigung bis zum gewünschten Zustand).

Der erste Schritt ist beim KDD-Prozess massgebend, da er die Definition im Sinne der Formulierung der Fragestellung und somit des erwarteten Ergebnisses beinhaltet. Die Formulierung des Ziels ist wichtig, damit sichergestellt werden kann, dass Informationen gewonnen werden können, welche wertvoll und verwendbar sind. Das Hintergrundwissen stellt dabei sicher, dass dem inhaltlichen Kontext bei der Analyse Rechnung getragen wird. Basierend auf der Definition des Ziels sowie damit verbunden der inhaltlichen Umgebung der Analyse, wird die Datenauswahl getroffen. Diese ist abhängig von den vorliegenden Informationen zur inhaltlichen Umgebung und dem Ziel des Wissensgenerierungsprozesses. Die Datenauswahl ist die Basis für alle nachfolgenden Schritte, die sorgfältige Selektion ist entsprechend wichtig für eine erfolgreiche Analyse. Die Schritte drei und vier sind innerhalb eines Big Data Warehouse bereits gegeben. Bei klassischen Data Warehouse erfolgt dies oftmals mittels einem Data Mart. Die effektive Analyse, das Data Mining, ist stark von den vorherigen Schritten und seiner korrekter Durchführung abhängig. Die Interpretation der Ergebnisse, wie u. a. eine Plausibilitätsprüfung, eine Nutzungsprüfung sowie die Prüfung der Zielerreichung, erfordert danach zusätzliches Wissen zum Kontext der Erkenntnisgewinnung. Durch die Ausführung des letzten Schrittes wird sichergestellt, dass das neu erworbene Wissen genutzt und im Unternehmen verankert wird. Die erzielten Ergebnisse können einmalig oder wiederholend genutzt und in Form konkreter Massnahmen umgesetzt werden. Dazu muss das neue Wissen in das bestehende Wissen des Unternehmens integriert werden und dabei muss eine Prüfung der bestehenden Zusammenhänge erfolgen. Dieser Prozess erfolgt nach den Prinzipien der Auswahl der relevanten Informationen sowie deren Interpretation bei Entscheidungsfindungen (vgl. Kapitel „Bestimmung und Interpretation von Informationen“). Somit ist nicht die Analyse als solches, d.h. das Data Mining, die entscheidende Komponente bei der spezifischen Wissensgenerierung aus grossen Datenbeständen, sondern die ersten beiden und letzten beiden Schritte des KDD-Prozesse stellen den Erfolg des Entdeckungsprozesses sowie den Erfolg des Prozesses für das Unternehmen sicher.

In der Forschung und Praxis resultierte aus dem KDD-Prozess eine Reihe weiterer Beschreibungen von Vorgehensmodellen als konzeptionelle und methodische Grundlage. Die verschiedenen Modelle ähneln sich dabei sehr und unterscheiden sich nur durch Nuancen. Ein verbreitertes Prozessmodell, das grosse Popularität erlangte, ist das „Cross Industry Standard Process für Data Mining“ (CRISP-DM) vom CRISP-DM-Konsortium. Das Modell beruht auf Projekterfahrungen zu Data Mining und beschreibt die Schritte des KDD-Prozesses aus Praxissicht. Das CRISP-DM-Modell ist wie der KDD-Prozess ein sequenzielles Vorgehensmodell, welche Rückkoppellunge zu den vorgelagerten Schritten explizit vorsieht und einfordert. Das CRISP-DM-Modell verdeutlicht zudem, dass der KDD-Prozess nicht ein einmaliger, sondern ein fortlaufender, sich wiederholender Vorgang in einem Unternehmen sein soll. (vgl. Gabriel, Gluchowski, & Pastwa, Data Warehouse & Data Mining, 1. Auflage, 2009, S. 123 ff.)

Phasen des CRISP-DM-Prozessmodells, aus xxxx
Abbildung 57:Phasen des CRISP-DM-Prozessmodells76

Vielfach wird als Data Mining nicht der Teilschritt des KDD-Prozesses verstanden, der die effektive Analyse der Daten mittels Anwendung von Methoden beinhaltet, sondern der gesamte Prozess der Entdeckung von nützlichen und wertvollen Informationen in Datenbeständen. Bei allen Modellen und Definitionen wird deutlich, dass der Anfang und das Ende des Prozesses massgebend sind. Nur bei einer möglichst genauen Zielsetzung können Ergebnisse erwartet werden, welche einen unmittelbaren Nutzen für das Unternehmen erbringen, in dieses zurückgeführt und verwendet werden können. Wird das Ergebnis als ausreichend beurteilt, beginnt der Prozess von neuem. Dies deckt sich mit der allgemeinen Theorie zur Auswahl und Interpretation von relevanten Informationen (vgl. Kapitel 2.6 „Auswahl und Interpretation von relevanten Informationen“).

Der Schritt des „Data Mining“ beinhaltet die Arbeitsschritte für die Entdeckung von bedeutenden Zusammenhängen, Mustern oder Trends. Oder wie es Gartner definiert: «The process of discovering meaningful correlations, patterns and trends by sifting through large amounts of data stored in repositories. Data mining employs pattern recognition technologies, as well as statistical and mathematical techniques.» ( Gartner, Gartner IT Glossary – Data mining)

Bei Data Mining werden «sehr leistungsfähige analytische und statistische Techniken eingesetzt, um sinnvolle Muster und Erkenntnisse über Kunden zu erhalten, […]» ( Kotler, Jain, & Maesincee, 2002, S. 156). Diese beruhen auf den folgenden Methoden:

Visualisierung Visualisierung der Daten für das Erkennen von Zusammenhängen oder Auffälligkeiten
Ausreisserkennung Identifizierung von ungewöhnlichen Datensätzen: Ausreissern, Fehlern, Änderungen
Clustering/Segmentierung Gruppierung von Objekten aufgrund von Ähnlichkeiten
Klassifikation Zuordnung von Daten in/zu Klassen
Assoziationsanalyse Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln
Regressionsanalyse Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
Vorhersagen Erkennung von Mustern, welche für die Weiterentwicklung (des Geschäfts) Rückschlüsse ergeben
Zusammenfassung Reduktion der Daten in kleinere kompaktere Einheiten / Sets ohne wesentlichen Informationsverlust (Aggregierung)
Tabelle 11:Methoden des Data Mining77

Dazu gibt es noch weitere Spezialisierungen:

Zeitreihenanalyse Analysen von Daten mit zeitlich ähnlichen Charakteristika
Text Mining Analysen von grossen textuellen Datenbeständen (Texten)
Web Mining Analysen der Beziehungen einer Website im Internet (Web-Structure-Mining), der Inhalte von Websites (Web-Content-Mining) sowie des Benutzerverhaltens (Web-Usage-Mining)
Tabelle 12:Spezialisierungen des Data Mining77b

Neben der sofortigen Verwendung der Ergebnisse aus dem KDD-Prozess können diese Informationen auch zur Theorieentwicklung verwendet werden (vgl. Gabriel, Gluchowski, & Pastwa, Data Warehouse & Data Mining, 1. Auflage, 2009, S. 14). Die Entdeckung von Mustern oder Strukturen in Datenbeständen kann ökonomisch wertvoll sein, da daraus z. B. wertvolle Erkenntnisse zu Kunden und zur Leistungserbringung gezogen werden können. Dabei ist es immer wichtig, dass der Kontext der Analysen, das Geschäft, im Zentrum steht. «Unternehmen brauchen für ihre Informationssysteme keine Techniker, denen es um die Datenbank geht, sondern Analysten, denen es um das Geschäft geht.» ( Kotler, Jain, & Maesincee, 2002, S. 156). Durch den Paradigmawechsel zu den Konsumenten und somit (zukünftigen) Kunden sollte entsprechend ein Analyst die Fähigkeit besitzen, sich in den Kunden zu versetzen und die Kundensicht zu berücksichtigen. Gewonnene Informationen aus dem KDD-Prozess können in Berichte integriert werden, falls diese regelmässigen Änderungen unterstehen und diese Veränderungen für die Unternehmensteuerung relevant sind.

Die Methoden des Data Mining werden auch in Big Data Systemen genutzt. Dafür werden diese als Algorithmen umgesetzt und damit Daten automatisch durch ein System analysiert. Dabei können verschiedene Methoden gleichzeitig angewendet werden und das ausführende System kann die Resultate aus den einzelnen Data Mining-Analysen unmittelbar in weitere Schritte einfliessen lassen. Der fortlaufende Einbezug der Resultate ermöglicht ein lernendes System mittels dynamischen und verknüpften Algorithmen sowie der Möglichkeit, die Erfahrungen der Erkenntnisgewinnung als neue Algorithmen abzubilden und zukünftig zu nutzen.



Publizieren auf TwitterGoogle+Facebook
 XingLinkedIn