1 / 13

Data Mining

Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software KNIME. Zur Veranstaltung Business Intelligence. Vorgetragen von: Sina Maria Viehhofer Sophie Wieckowski Betreuer: Prof. Dr. Jürgen Cleve

ingrid
Download Presentation

Data Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining Untersuchung der Umfragedaten der Direktstudenten im Bereich Wirtschaft der Hochschule Wismar mit der Open-Source Software KNIME Zur Veranstaltung Business Intelligence • Vorgetragen von: Sina Maria Viehhofer • Sophie Wieckowski • Betreuer: Prof. Dr. Jürgen Cleve • Datum: 07.01.2013

  2. Gliederung • Datenvorbereitung • Data Mining • Clustering • Klassifikation • Assoziationsanalyse • Fazit

  3. Datenvorbereitung Vollständigkeit Überprüfung auf Vollständigkeit Ermittlung fehlender Werte mithilfe von kNN Konsistenz Widersprüche identifizieren Wenn möglich korrigieren ggf. als fehlerhaft markieren

  4. Datenvorbereitung Detaillierungsgrad Detaillierungsgrad reduzieren Fragen zusammenfassen Antwortmöglichkeiten zusammenfassen Frage 6+7 (Erststudium und vorheriger Studiengang) Frage 6 Erststudium Frage 6.2 nominal Erststudium Frage 13+14 (Arbeit und Stundenzahl)  Frage 13 Arbeit Frage 22+23 (Fernseher und Stundenzahl)  Frage 22 Fernseher Frage 24+25 (Videospiele und Stundenzahl)  Frage 24 Videospiele Frage 16  Antwortmöglichkeit WG in Mietwohnung ergänzt Transformation Umwandlung in numerische Daten

  5. Gliederung • Datenvorbereitung • Data Mining • Clustering • Klassifikation • Assoziationsanalyse • Fazit

  6. Data Mining Clustering k-Means Keine sinnvollen Ergebnisse Sinnvolle Kategorisierung bereits bei der Erstellung des Fragebogens vorgenommen

  7. Data Mining Klassifikation Entscheidungsbaum Vergleich DecisionTreeLearner – Node (Gini- Index, Gain-Ratio) mit dem J48-Node (C4.5-Algorithmus) Fehlerfreiheit > 80 Prozent

  8. Data Mining Klassifikation k- NearestNeighbor Überprüfung auf Vollständigkeit Ermittlung fehlender Wert emit Hilfe von kNN Fehlerfreiheit • Spanne von 25% bis 100% • In Summe 61% • Höchste Genauigkeit bei Multiple-Choice Fragen

  9. Data Mining Klassifikation Naive Bayes Attribute müssen voneinander unabhängig sein Ausgabe über Scorer möglich Attribut: Leistung Fehlerfreiheit 61% Distanz 74 Durchschnittliche Distanz 1,17 Fehlerfreiheit Gesamt: 63%

  10. Data Mining Assoziationsanalyse A-Priori Interessantheitsmaße: Konfidenz + Support Ausgabe in Assoziationsregeln Assoziationsregeln Bsp.: 1. Alter=21-25 + finanz.. Unterstützung=ja (109 DS) ==> Erststudium=ja conf:(0.97) 2. Alter=21-25 + Bafög=nein + Mit Leistung zufrieden=ja + ausreichend?=ja (38 DS) ==> finanz. Unterstützung=ja (37 DS) Conf:(0.97)

  11. Gliederung • Datenvorbereitung • Data Mining • Clustering • Klassifikation • Assoziationsanalyse • Fazit

  12. Fazit Auswahl des richtigen Verfahrens von großer Bedeutung. Die Beurteilung ob ein Fehlerfreiheitsmaß ausreichend ist, muss individuell anhand der Daten und des Verfahrens erfolgen. Eine allgemeingültige Definition existiert nicht. Data Mining als unterstützendes Werkzeug

  13. Danke für die Aufmerksamkeit

More Related