Seminar, Übung, Schulung: Umgang mit komplexen und umfangreichen Datensätzen Stichworte:

Seminar, Übung, Schulung: • Umgang mit komplexen und umfangreichen Datensätzen • Stichworte: • Zu zahlreichen Fragestellungen und Forschungsthemen existieren umfangreiche Datenbestände • Beispiel: PISA, SOEP (Socio-Economic-Panel), Daten über den Studienverlauf/die Benotungen, Statistisches Bundesamt • Es bedarf besonderer Techniken, um mit derartig umfangreichen Datenbeständen angemessen umzugehen, nicht in den Mengen zu versinken: • Syntax • Macros • Data-Mining • Automatisierung von Abläufen, Erzeugung von Routinen

Eine bekannte Daumenregel im Analysegeschäftlautet: Etwa 80% der Arbeit liegt in der Datenbereinigungund -aufbereitung!Ungeachtet dieser Erkenntnis dominieren in der Wissensvermittlung Einführungen in deskriptiverStatistik und multivariaten Verfahren, die meist„saubere“ und entsprechend aufbereitete Datenvoraussetzen. Fragen der Datenqualität und ihrer Auswirkung werden hingegen kaum thematisiert. Das Seminar setzt genau an diesem Missverhältnis an.

In diesem Seminar, Übung, Schulung werden basale Techniken zu diesem Thema vorgestellt und eingeübt. • Dazu sollten wir uns über eine dafür geeignete Form derVermittlung verständigen! • Der geplante grobe inhaltliche Ablauf: • Einführung in die Thematik • Einlesen von verschiedenen Datensätzen • Syntax und Macro-Prozeduren zum • Einlesen • Zusammenstellen unterschiedlichster Variablensätze • Generieren neuer Variablen • Makroskopischen Analysen • Techniken der EDA (Explorative Daten Analyse), Data-Mining

Datenmanagement ist die Grundlage jeder Datenverarbeitung. • Datenmanagement bedeutet u.a.: • Transponieren • Bilden von Subsets • Bilden von Subsets über Filter/Bedingungen • Bilden neuer Variablen oder Werte über Umkodieren oder arithmetische Operationen • Zusammenfügen von Datensätzen • Bereinigen der Datensätze (Missing values, Ausreißer, Anpassungen bei Nicht-Normalverteilung)

Zeiten, Blöcke, Inhalte!!??

Die Phasen im Data Mining Prozess Transformation Interpretation Selektion Vorverarbeitung Data Mining Vorbereitete Daten Wissen/Modelle Selektierte Daten Transformierte Daten Muster Daten

Was ist die generelle Idee, das generelle hier behandelte Konzept? • Es gibt selbstverständlich eine ganze Reihe höchst unterschiedlicher Fragestellungen.Ich behandele mit Ihnen eine Form wie bspw.: • Was unterscheidet Schüler mit hoher und mit niedriger Leistung? • Wann wird viel, wann wird wenig Kaffee verkauft und wovon ist dies abhängig? • Wie lassen sich Kunden mit einem hohen Kreditrisiko von denen mit geringem Kreditrisiko unterscheiden? • Wo liegen die Gründe eines schnellen, erfolgreichen Studiums? • Wovon ist bei einem Schiffsuntergang das Überleben abhängig? Betrachten wir zunächst kategoriale Daten:

Ihnen liegt bspw. EinDatensatz von 2201Personen vor, die aufder Titanic unterwegswaren.Sie haben Angaben zu: • Kabinenklasse • Altersgruppe • Geschlecht • Überlebt/Vermisst • (siehe Tabelle) • Wie können Sie dereben gestellten Fragenachgehen?

Durch die Berechnung von sog. Klassifikationsbäumen können Sie der Frage so nach-gehen: Sie sehen, welcher Faktor der wichtigste ist und können weitere Abhängigkeitenerkennen:

Was ist die generelle Idee, das generelle hier behandelte Konzept? Betrachten wir jetzt metrische Daten: Erster Schritt: Verteilung anschauen, Daten inspizieren

Ggf. Daten verändern, hier als ein Beispiel: alle Werte in absolute Werte umrechnen.Sie müssen „etwas sehen“!!

Zweiter Schritt: Unterteilungen vornehmen, Bewertungen vornehmen

Dritter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Dazu nach den Variablen suchen, die zwischen diesen beiden Kategorie trennen

Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Hierarchie aller „gut“ „schlecht“ beeinflussenden Faktoren betrachten

Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Güte der erreichten Aufklärung überprüfen

„Wie geht Erkenntnisgewinn?“ Ein erster, flüchtiger Blick Transformation Interpretation Data Mining Vorbereitete Daten Wissen/Modelle Transformierte Daten Muster

Fisher (1936) Irisdaten: Länge und Breite von Blättern und Kelchen für 3 Iristypen

CART(classificationand regression trees) • Kategoriale Werte (gut/schlecht) • Metrische Werte (1, 2, 3, 4, ..)[Nominale, Ordinale Werte] Split: Welche Variable trennt am besten bei welchem Wert?

Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Prognost. Klasse x Beob. Klasse n's (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150

Split-Bedingung (Irisdat) Split-Bedingung je Knoten

Daten Trainings-daten Daten teilen Validierungs-daten Modell-bewertung

Eine Alternative: ROC Kurven (Receiver Operating Characteristic) Richtig Positive Sensitivität t = Richtig Positive + Falsch Negative Richtig Negative Spezifität = Richtig Negative + Falsch Positive

„richtig positiven“ Kriterium „falsch negative“ erfolgreich 50 50 50 50 „falsch positiven“ nicht-erfolgreich „richtig negative“ abgelehnt angenommen Prediktor

Nachdenken, was die erzielten Ergebnisse bedeuten!!

Vorbereitung: Zunächst müssen wir gemeinsam unsere Rechner vorbereiten,um die Einstellungen des SPSS so zu konfigurieren, dassder automatisch generierte Programmiercode auch gefundenund genutzt werden kann. Zugleich benötigt jeder von Ihnen einen eigenen Ordner imVerzeichnis „Komplexe Daten“ auf dem Laufwerk ‚N:\‘. Diese beiden Einstellungen müssen wir nun vornehmen.

Sie können alle im Programm auf der Windows-Oberfläche durchgeführtenArbeiten in einem ‚Journal‘ aufzeichnen lassen. Dazu stehen zwei Optionenzur Verfügung. ‚Überschreiben‘ oder ‚Anhängen‘ • Der Speicherortdes Syntax-Journals findenSie unter: • Bearbeiten • Optionen/Options • File Locations

Selektion Erster Teil: Vorverarbeitung Vorbereitete Daten Selektierte Daten Daten • Es gibt verschiedene Möglichkeiten: • Datenbanken, Abfrage und Zusammenstellung mit SQL (Structured Query Language) • Nutzung von Syntax- und Macro-Prozeduren, bspw. aus SPSS herausDie Vorteile/Nachteile: • SQL ist oft schneller, mächtiger. Hat aber Einschränkungen, weniger Transparenz • Syntax, Macros erlauben mehr Operationen, geben Einblick in Zwischenresultate; sind entsprechend aufwändiger und (etwas) langsamer, erfordern Zwischenschritte

Die hier favorisierte Alternative, Variante: Zusammenführen und -fügen der Arbeitsdatensätze mit Hilfe vonSyntax- und Macro-Prozeduren aus verschiedenen Datensätzen Selektion Vorverarbeitung Syntax- und Macro-Prozeduren Vorbereitete Daten Selektierte Daten Daten Selektion & Vorverarbeitung Vorbereitete Daten Selektierte Daten Daten

Seminar, Übung, Schulung: Umgang mit komplexen und umfangreichen Datensätzen Stichworte:

Seminar, Übung, Schulung: Umgang mit komplexen und umfangreichen Datensätzen Stichworte:

Presentation Transcript

Get Motivated Seminars

Dental Seminar 2010

Financial Planning Seminar

USA Hockey Officiating Seminar

SEACEN Seminar on “INTERNAL AUDIT OF CENTRAL BANKS” Taipei, Taiwan, R.O.C. 14-17 September 2004

Gewaltfreie Kommunikation (GfK)

Esslingen, 5. März 2009

Special Regulations Seminar January 2009

USA Hockey Officiating Seminar

Seminar On Nanotechnology

De Götzen EASY START GUIDE ERROR CODES

Integration AccountView

TEkNIK PRESENTASI UNTUK AKADEMIK (SEMINAR PROPOSAL, SEMINAR HASIL DAN UJIAN TESIS)

VIM SEMINAR

CE240: Young Children With Special Needs Unit 7 Seminar

The Lewis C. Richardson Seminar Room

Welcome to the CLU-IN Internet Seminar

SEMINAR

Invention Navigator 6.0

Sections Officers Leadership Seminar

Lyrik

Beyond Budgeting: Leading with Flexible Targets. 2-day seminar