Data Mining

Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software KNIME Zur Veranstaltung Business Intelligence • Vorgetragen von: Sina Maria Viehhofer • Sophie Wieckowski • Betreuer: Prof. Dr. Jürgen Cleve • Datum: 07.01.2013

Gliederung • Datenvorbereitung • Data Mining • Clustering • Klassifikation • Assoziationsanalyse • Fazit

Datenvorbereitung Vollständigkeit Überprüfung auf Vollständigkeit Ermittlung fehlender Werte mithilfe von kNN Konsistenz Widersprüche identifizieren Wenn möglich korrigieren ggf. als fehlerhaft markieren

Datenvorbereitung Detaillierungsgrad Detaillierungsgrad reduzieren Fragen zusammenfassen Antwortmöglichkeiten zusammenfassen Frage 6+7 (Erststudium und vorheriger Studiengang) Frage 6 Erststudium Frage 6.2 nominal Erststudium Frage 13+14 (Arbeit und Stundenzahl)  Frage 13 Arbeit Frage 22+23 (Fernseher und Stundenzahl)  Frage 22 Fernseher Frage 24+25 (Videospiele und Stundenzahl)  Frage 24 Videospiele Frage 16  Antwortmöglichkeit WG in Mietwohnung ergänzt Transformation Umwandlung in numerische Daten

Data Mining Clustering k-Means Keine sinnvollen Ergebnisse Sinnvolle Kategorisierung bereits bei der Erstellung des Fragebogens vorgenommen

Data Mining Klassifikation Entscheidungsbaum Vergleich DecisionTreeLearner – Node (Gini- Index, Gain-Ratio) mit dem J48-Node (C4.5-Algorithmus) Fehlerfreiheit > 80 Prozent

Data Mining Klassifikation k- NearestNeighbor Überprüfung auf Vollständigkeit Ermittlung fehlender Wert emit Hilfe von kNN Fehlerfreiheit • Spanne von 25% bis 100% • In Summe 61% • Höchste Genauigkeit bei Multiple-Choice Fragen

Data Mining Klassifikation Naive Bayes Attribute müssen voneinander unabhängig sein Ausgabe über Scorer möglich Attribut: Leistung Fehlerfreiheit 61% Distanz 74 Durchschnittliche Distanz 1,17 Fehlerfreiheit Gesamt: 63%

Data Mining Assoziationsanalyse A-Priori Interessantheitsmaße: Konfidenz + Support Ausgabe in Assoziationsregeln Assoziationsregeln Bsp.: 1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS) ==> Erststudium=ja conf:(0.97) 2. Alter=21-25 + Bafög=nein + Mit Leistung zufrieden=ja + ausreichend?=ja (38 DS) ==> finanz. Unterstützung=ja (37 DS) Conf:(0.97)

Fazit Auswahl des richtigen Verfahrens von großer Bedeutung. Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist, muss individuell anhand der Daten und des Verfahrens erfolgen. Eine allgemeingültige Definition existiert nicht. Data Mining als unterstützendes Werkzeug

Danke für die Aufmerksamkeit

Data Mining

Data Mining

Presentation Transcript

Data Mining: Data

Data Mining: Data

Data Mining: Proses Data Mining

Data Mining: Proses Data Mining

Data Mining: Data

Data Mining: P enelitian Data Mining

Data Mining

Data Mining

Data mining

Data mining

Data Mining: Data

Data Mining: Data

Data Mining: Data

Data Mining: Data

Data Mining: Data

Data Mining

Data Mining

Data Mining: Data

Data Mining: Data