1 / 25

Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de

Data Mining Cup 2012. Wissensextraktion – Multimedia Engineering deck using PDA or similar devices . Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de. Gliederung. Software Vorverarbeitung Analyse Algorithmen Verfeinerung Auswahl. Software.

idola
Download Presentation

Fakultät für Ingenieurwissenschaften Jevgenij Jakunschin Christian Mewes www.hs-wismar.de

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Data Mining Cup 2012 Wissensextraktion – Multimedia Engineering deck using PDA or similar devices Fakultät für IngenieurwissenschaftenJevgenij Jakunschin Christian Meweswww.hs-wismar.de

  2. Gliederung • Software • Vorverarbeitung • Analyse • Algorithmen • Verfeinerung • Auswahl

  3. Software • Daten wurden in .csv Format gespeichert • Excel für frühe Analysen und Umwandlung • Knime + Weka + Math plugins für Datamining, Clusterung und die meisten Algorithmen • Matlab für für Regression, Interpolation und ApproximationverfahrenDropbox für Synchronisation

  4. Vorverarbeitung • Keine fehlenden Werte • Keine Duplikate • Keine fehlerhaften Werte •  Rein syntaxisch her Daten komplett korrekt • Allerdings...

  5. Vorverarbeitung • Allerdings... • Starke Schwankungen, mit „Peaks“ • Keine zusätzlichen/abgeleiteten Informationen (wie Wochentag oder Gewinn) • Werte nicht normalisiert und/oder nominalisiert

  6. Vorverarbeitung • Erstellen von CSV Dateien mit Zusätzlichen Informationen: -Gewinn,Wochentag, Durschnittlicher Gewinn (soweit) • Zusätzliche nominalisierten und normalisierten Werte • Durschnittswerte für Diagramme und Statistiken • Strukturieren und Anlegen von Zwischentabellen/Resultaten • Tabellen mit allen Wochenwerten in einer Zeile (pro Produkt)

  7. Analysis • Erstellen von Tabellen mit Mittelwerten und Summen • Darstellen von Diagrammen • Notieren von Abweichungen, Min/Max-Werten • Überprüfen auf Auffälligkeiten durch gruppierte Tabellen • Starker Exceleinsatz

  8. Algorithmen • Erstellen von Matlab und Knime Umgebungen • Möglichkeiten schnell Module und Algorithmen zu tauschen • Schnelles Anpassen der Daten... • ... für Noralisieren, Partitonieren, Splitten, Clusterung... • ...und schließlich Auswertung

  9. Algorithmen: • Regression (linear, logistic, polynom, WEKA versions) • Bayes (Naive, WEKA versions, Multinomial) • Neuronal Network (MLP, PNN, WEKA Voted Perceptron • Kstar, LWL • Decission Trees • Clustering: Kmeans, Xmeans .. (usw.)

  10. Algorithmen: • Regression (linear, logistic, polynom, WEKA versions) • Bayes (Naive, WEKA versions, Multinomial) • Neuronal Network (MLP, PNN, WEKA Voted Perceptron • Kstar, LWL • Decission Trees • Clustering: Kmeans, Xmeans .. (usw.)

  11. Algorithmen • Ergebnisse meist sehr ungenau (accuracy <<10%) • aber 2 Algorithmen waren klar im Vorteil: • Kstar – WEKA plugin – ungenau aber erkennt Tendenz • Regressionen (Polynom/Linear) Accuracy Werte bis zu 20% • Beide trotzdem bei weitem nicht genau genug

  12. Verfeinerung • Verbesserung der Resultate auf viele Weisen • Veränderung interner Variablen • Clusterung nach Wochentagen verbessert Ergebnisse stark • Zusätzliche Einbindung von Neuronalen Netzwerken • Entfernen oder skalieren mancher Daten

  13. Verfeinerung • Größte Veränderung durch Sortierung nach Wochentagen • Durch mehr als 7 Cluster allerdings noch bessere Resultate • Clustersuche schlägt sich vor • K-means • Relativ gute Ergebnisse bei Regression und Kstar

  14. Das experementieren ging dann eine Weile weiter...

  15. Testen - Knime 1)Allgemeiner Workflow und WEKA Workflow 2)AnwendungenmeisterAlgorithmen 3)Entscheidung: Regression(Matlab) und Kstar(Knime) 4) Kstar – Anpassung der Variablen (++) 5) Kstar+MLP – HinzufügeneinesneuronalenNetzes (--) 6) Kstar – ClusterungnachWochetagen (++) 7) Kstar+Kmeans – Automatische Clusterung (++) 8) Kstar+Kmeans – Skalierung/Filterung (++) Beste Kstar Ergebnisse in 600ter Bereich...

  16. Verfeinern - Matlab • 1. Durchschnitt Tag/Menge pro Produkt • 2. DS Wochentag/Menge pro Produkt (~16%) • 3. MIN, MAX statt DS (ca.30%) • 4. Ausreißerbeseitigen (+ca.1.5%) • 5. IdentischeDatensätze (+ca.1.5%) • 6. Durchschnittspreis (+ca.0.5%) • 7. Approximation Menge (30-40%, aber E:NaN, M:NaN) • (8.Clustering Menge) • (9.Clustering Produkt) • 10.Zusammenführung allerAnsätze

  17. Auswahl • Bis man zwischen Regression und Kstar wählen musste • (Bei Aufteilung 4:2 Wochen) • Kstar: EuklD: 650, ManD: 20000, Accuracy bis 25%Regression: EuklD: 462, ManD: 20948, Accuracy bis 16.4% • Regression kann konfiguriert werden, auf Kosten von der EuklD und ManD höhere Accuracy zu bekommen (30+)Endentscheidung: Regression

  18. Quellen und Zusatzinformationen • http://www.knime.org/ • http://www.data-mining-cup.de/ • http://www.knime.org/files/weka.jpg • http://www.mathworks.de/products/matlab/ • https://www.dropbox.com/home • http://www.kreditrechner-kostenlos.de/wp-content/uploads/2012/03/Microsoft-Excel-2011-Logo.png

  19. Danke fürs Zuhören!

More Related