Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de

Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering deck using PDA or similar devices Fakultät für IngenieurwissenschaftenJevgenij Jakunschin Christian Meweswww.hs-wismar.de

Gliederung • Software • Vorverarbeitung • Analyse • Algorithmen • Verfeinerung • Auswahl

Software • Daten wurden in .csv Format gespeichert • Excel für frühe Analysen und Umwandlung • Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen • Matlab für für Regression, Interpolation und ApproximationverfahrenDropbox für Synchronisation

Vorverarbeitung • Keine fehlenden Werte • Keine Duplikate • Keine fehlerhaften Werte •  Rein syntaxisch her Daten komplett korrekt • Allerdings...

Vorverarbeitung • Allerdings... • Starke Schwankungen, mit „Peaks“ • Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn) • Werte nicht normalisiert und/oder nominalisiert

Vorverarbeitung • Erstellen von CSV Dateien mit Zusätzlichen Informationen: -Gewinn,Wochentag, Durschnittlicher Gewinn (soweit) • Zusätzliche nominalisierten und normalisierten Werte • Durschnittswerte für Diagramme und Statistiken • Strukturieren und Anlegen von Zwischentabellen/Resultaten • Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)

Analysis • Erstellen von Tabellen mit Mittelwerten und Summen • Darstellen von Diagrammen • Notieren von Abweichungen, Min/Max-Werten • Überprüfen auf Auffälligkeiten durch gruppierte Tabellen • Starker Exceleinsatz

Algorithmen • Erstellen von Matlab und Knime Umgebungen • Möglichkeiten schnell Module und Algorithmen zu tauschen • Schnelles Anpassen der Daten... • ... für Noralisieren, Partitonieren, Splitten, Clusterung... • ...und schließlich Auswertung

Algorithmen: • Regression (linear, logistic, polynom, WEKA versions) • Bayes (Naive, WEKA versions, Multinomial) • Neuronal Network (MLP, PNN, WEKA Voted Perceptron • Kstar, LWL • Decission Trees • Clustering: Kmeans, Xmeans .. (usw.)

Algorithmen • Ergebnisse meist sehr ungenau (accuracy <<10%) • aber 2 Algorithmen waren klar im Vorteil: • Kstar – WEKA plugin – ungenau aber erkennt Tendenz • Regressionen (Polynom/Linear) Accuracy Werte bis zu 20% • Beide trotzdem bei weitem nicht genau genug

Verfeinerung • Verbesserung der Resultate auf viele Weisen • Veränderung interner Variablen • Clusterung nach Wochentagen verbessert Ergebnisse stark • Zusätzliche Einbindung von Neuronalen Netzwerken • Entfernen oder skalieren mancher Daten

Verfeinerung • Größte Veränderung durch Sortierung nach Wochentagen • Durch mehr als 7 Cluster allerdings noch bessere Resultate • Clustersuche schlägt sich vor • K-means • Relativ gute Ergebnisse bei Regression und Kstar

Das experementieren ging dann eine Weile weiter...

Testen - Knime 1)Allgemeiner Workflow und WEKA Workflow 2)AnwendungenmeisterAlgorithmen 3)Entscheidung: Regression(Matlab) und Kstar(Knime) 4) Kstar – Anpassung der Variablen (++) 5) Kstar+MLP – HinzufügeneinesneuronalenNetzes (--) 6) Kstar – ClusterungnachWochetagen (++) 7) Kstar+Kmeans – Automatische Clusterung (++) 8) Kstar+Kmeans – Skalierung/Filterung (++) Beste Kstar Ergebnisse in 600ter Bereich...

Verfeinern - Matlab • 1. Durchschnitt Tag/Menge pro Produkt • 2. DS Wochentag/Menge pro Produkt (~16%) • 3. MIN, MAX statt DS (ca.30%) • 4. Ausreißerbeseitigen (+ca.1.5%) • 5. IdentischeDatensätze (+ca.1.5%) • 6. Durchschnittspreis (+ca.0.5%) • 7. Approximation Menge (30-40%, aber E:NaN, M:NaN) • (8.Clustering Menge) • (9.Clustering Produkt) • 10.Zusammenführung allerAnsätze

Auswahl • Bis man zwischen Regression und Kstar wählen musste • (Bei Aufteilung 4:2 Wochen) • Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4% • Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)Endentscheidung: Regression

Quellen und Zusatzinformationen • http://www.knime.org/ • http://www.data-mining-cup.de/ • http://www.knime.org/files/weka.jpg • http://www.mathworks.de/products/matlab/ • https://www.dropbox.com/home • http://www.kreditrechner-kostenlos.de/wp-content/uploads/2012/03/Microsoft-Excel-2011-Logo.png

Danke fürs Zuhören!

Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de

Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de

Presentation Transcript

Fakult t Sprach-, Literatur- und Kulturwissenschaften Institut f r Romanistik Professur Romanistische Sprachwissenschaft

Vorlesung Informatik Gesellschaft IuG Fakult t f r Informatik Sommersemester 2008

Fakult t Informatik

Universit t Leipzig Erziehungswissenschaftliche Fakult t Institut f r Grundschulp dagogik Seminar: Erarbeitung der Zahle

Friedrich-Schiller-Universit t Jena Fakult t f r Sozial- und Verhaltenswissenschaften Institut f r Psychologie Seminar:

D r a f t

D r a f t

Vorlesung Informatik Gesellschaft IuG Fakult t f r Informatik Sommersemester 2008

Vorlesung Informatik Gesellschaft IuG Fakult t f r Informatik Sommersemester 2008

F R A T T U R A

T HE R OTARY F OUNDATION

T HE R OTARY F OUNDATION

F r u t a s

G r a f f i t i A r t i s t s

F e r r i t i n

F r u i t s

[ f a t h e r ]

G r a f f i t i

T HE R OTARY F OUNDATION

D r a f t

G R a f f i t i

F. Eisenhauer, T. Ott, R. Genzel, R. Schödel