html5-img
1 / 206

Seminar, Übung, Schulung: Umgang mit komplexen und umfangreichen Datensätzen Stichworte:

Seminar, Übung, Schulung: Umgang mit komplexen und umfangreichen Datensätzen Stichworte: Zu zahlreichen Fragestellungen und Forschungsthemen existieren umfangreiche Datenbestände

lis
Download Presentation

Seminar, Übung, Schulung: Umgang mit komplexen und umfangreichen Datensätzen Stichworte:

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seminar, Übung, Schulung: • Umgang mit komplexen und umfangreichen Datensätzen • Stichworte: • Zu zahlreichen Fragestellungen und Forschungsthemen existieren umfangreiche Datenbestände • Beispiel: PISA, SOEP (Socio-Economic-Panel), Daten über den Studienverlauf/die Benotungen, Statistisches Bundesamt • Es bedarf besonderer Techniken, um mit derartig umfangreichen Datenbeständen angemessen umzugehen, nicht in den Mengen zu versinken: • Syntax • Macros • Data-Mining • Automatisierung von Abläufen, Erzeugung von Routinen

  2. Eine bekannte Daumenregel im Analysegeschäftlautet: Etwa 80% der Arbeit liegt in der Datenbereinigungund -aufbereitung!Ungeachtet dieser Erkenntnis dominieren in der Wissensvermittlung Einführungen in deskriptiverStatistik und multivariaten Verfahren, die meist„saubere“ und entsprechend aufbereitete Datenvoraussetzen. Fragen der Datenqualität und ihrer Auswirkung werden hingegen kaum thematisiert. Das Seminar setzt genau an diesem Missverhältnis an.

  3. In diesem Seminar, Übung, Schulung werden basale Techniken zu diesem Thema vorgestellt und eingeübt. • Dazu sollten wir uns über eine dafür geeignete Form derVermittlung verständigen! • Der geplante grobe inhaltliche Ablauf: • Einführung in die Thematik • Einlesen von verschiedenen Datensätzen • Syntax und Macro-Prozeduren zum • Einlesen • Zusammenstellen unterschiedlichster Variablensätze • Generieren neuer Variablen • Makroskopischen Analysen • Techniken der EDA (Explorative Daten Analyse), Data-Mining

  4. Datenmanagement ist die Grundlage jeder Datenverarbeitung. • Datenmanagement bedeutet u.a.: • Transponieren • Bilden von Subsets • Bilden von Subsets über Filter/Bedingungen • Bilden neuer Variablen oder Werte über Umkodieren oder arithmetische Operationen • Zusammenfügen von Datensätzen • Bereinigen der Datensätze (Missing values, Ausreißer, Anpassungen bei Nicht-Normalverteilung)

  5. Zeiten, Blöcke, Inhalte!!??

  6. Die Phasen im Data Mining Prozess Transformation Interpretation Selektion Vorverarbeitung Data Mining Vorbereitete Daten Wissen/Modelle Selektierte Daten Transformierte Daten Muster Daten

  7. Was ist die generelle Idee, das generelle hier behandelte Konzept? • Es gibt selbstverständlich eine ganze Reihe höchst unterschiedlicher Fragestellungen.Ich behandele mit Ihnen eine Form wie bspw.: • Was unterscheidet Schüler mit hoher und mit niedriger Leistung? • Wann wird viel, wann wird wenig Kaffee verkauft und wovon ist dies abhängig? • Wie lassen sich Kunden mit einem hohen Kreditrisiko von denen mit geringem Kreditrisiko unterscheiden? • Wo liegen die Gründe eines schnellen, erfolgreichen Studiums? • Wovon ist bei einem Schiffsuntergang das Überleben abhängig? Betrachten wir zunächst kategoriale Daten:

  8. Ihnen liegt bspw. EinDatensatz von 2201Personen vor, die aufder Titanic unterwegswaren.Sie haben Angaben zu: • Kabinenklasse • Altersgruppe • Geschlecht • Überlebt/Vermisst • (siehe Tabelle) • Wie können Sie dereben gestellten Fragenachgehen?

  9. Durch die Berechnung von sog. Klassifikationsbäumen können Sie der Frage so nach-gehen: Sie sehen, welcher Faktor der wichtigste ist und können weitere Abhängigkeitenerkennen:

  10. Was ist die generelle Idee, das generelle hier behandelte Konzept? Betrachten wir jetzt metrische Daten: Erster Schritt: Verteilung anschauen, Daten inspizieren

  11. Ggf. Daten verändern, hier als ein Beispiel: alle Werte in absolute Werte umrechnen.Sie müssen „etwas sehen“!!

  12. Zweiter Schritt: Unterteilungen vornehmen, Bewertungen vornehmen

  13. Dritter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Dazu nach den Variablen suchen, die zwischen diesen beiden Kategorie trennen

  14. Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Hierarchie aller „gut“ „schlecht“ beeinflussenden Faktoren betrachten

  15. Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Güte der erreichten Aufklärung überprüfen

  16. „Wie geht Erkenntnisgewinn?“ Ein erster, flüchtiger Blick Transformation Interpretation Data Mining Vorbereitete Daten Wissen/Modelle Transformierte Daten Muster

  17. Fisher (1936) Irisdaten: Länge und Breite von Blättern und Kelchen für 3 Iristypen

  18. CART(classificationand regression trees) • Kategoriale Werte (gut/schlecht) • Metrische Werte (1, 2, 3, 4, ..)[Nominale, Ordinale Werte] Split: Welche Variable trennt am besten bei welchem Wert?

  19. Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Prognost. Klasse x Beob. Klasse n's (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150

  20. Split-Bedingung (Irisdat) Split-Bedingung je Knoten

  21. Daten Trainings-daten Daten teilen Validierungs-daten Modell-bewertung

  22. Eine Alternative: ROC Kurven (Receiver Operating Characteristic) Richtig Positive Sensitivität t = Richtig Positive + Falsch Negative Richtig Negative Spezifität = Richtig Negative + Falsch Positive

  23. „richtig positiven“ Kriterium „falsch negative“ erfolgreich 50 50 50 50 „falsch positiven“ nicht-erfolgreich „richtig negative“ abgelehnt angenommen Prediktor

  24. Nachdenken, was die erzielten Ergebnisse bedeuten!!

  25. Vorbereitung: Zunächst müssen wir gemeinsam unsere Rechner vorbereiten,um die Einstellungen des SPSS so zu konfigurieren, dassder automatisch generierte Programmiercode auch gefundenund genutzt werden kann. Zugleich benötigt jeder von Ihnen einen eigenen Ordner imVerzeichnis „Komplexe Daten“ auf dem Laufwerk ‚N:\‘. Diese beiden Einstellungen müssen wir nun vornehmen.

  26. Sie können alle im Programm auf der Windows-Oberfläche durchgeführtenArbeiten in einem ‚Journal‘ aufzeichnen lassen. Dazu stehen zwei Optionenzur Verfügung. ‚Überschreiben‘ oder ‚Anhängen‘ • Der Speicherortdes Syntax-Journals findenSie unter: • Bearbeiten • Optionen/Options • File Locations

  27. Selektion Erster Teil: Vorverarbeitung Vorbereitete Daten Selektierte Daten Daten • Es gibt verschiedene Möglichkeiten: • Datenbanken, Abfrage und Zusammenstellung mit SQL (Structured Query Language) • Nutzung von Syntax- und Macro-Prozeduren, bspw. aus SPSS herausDie Vorteile/Nachteile: • SQL ist oft schneller, mächtiger. Hat aber Einschränkungen, weniger Transparenz • Syntax, Macros erlauben mehr Operationen, geben Einblick in Zwischenresultate; sind entsprechend aufwändiger und (etwas) langsamer, erfordern Zwischenschritte

  28. Die hier favorisierte Alternative, Variante: Zusammenführen und -fügen der Arbeitsdatensätze mit Hilfe vonSyntax- und Macro-Prozeduren aus verschiedenen Datensätzen Selektion Vorverarbeitung Syntax- und Macro-Prozeduren Vorbereitete Daten Selektierte Daten Daten Selektion & Vorverarbeitung Vorbereitete Daten Selektierte Daten Daten

More Related