oberseminar datenbanken carsten severin tobias sorgatz l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Oberseminar Datenbanken Carsten Severin Tobias Sorgatz PowerPoint Presentation
Download Presentation
Oberseminar Datenbanken Carsten Severin Tobias Sorgatz

Loading in 2 Seconds...

play fullscreen
1 / 57

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz - PowerPoint PPT Presentation


  • 142 Views
  • Uploaded on

Oberseminar Datenbanken Carsten Severin Tobias Sorgatz. Datamining. Überblick. 1. Einleitung 2. Eingaben 3. Ausgaben 4. Algorithmen 5. Glaubwürdigkeit 6. Maschinelles Lernen in der Praxis. 1.0. Beispiele. Beispiel 1: Künstliche Befruchtung

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Oberseminar Datenbanken Carsten Severin Tobias Sorgatz' - walter


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
berblick
Überblick
  • 1. Einleitung
  • 2. Eingaben
  • 3. Ausgaben
  • 4. Algorithmen
  • 5. Glaubwürdigkeit
  • 6. Maschinelles Lernen in der Praxis
1 0 beispiele
1.0. Beispiele
  • Beispiel 1: Künstliche Befruchtung
    • Eigenschaften definieren, die größteÜberlebenschance garantieren
1 1 beispiele
1.1. Beispiele
  • Beispiel 2: Vieh wird geschlachtet
    • Gesundheit
    • Lebenserwartung
    • Fruchtbarkeit
    • Gewicht
1 2 situation
1.2. Situation
  • Immer mehr Daten werden gespeichert
  • Internet
  • Preiswerte Speichermedien
  • Mehr Anwendungen: Bilder, Filme
  • Alle 20 Monate Verdopplungder Daten
1 3 l sung data mining
1.3. Lösung: Data Mining
  • Es ist eine Möglichkeit gesucht, dieDatenflut zu analysieren
  • Daten sollen ausgewertet werden
  • Lösung: Data Mining
1 4 1 datamining
1.4.1. Datamining
  • Verarbeitung elektronisch gespeicherter Daten
  • Lernen: Wissen durch Studium aneignen
  • Prozess der autom. oder halbautom. Mustererkennung
  • Maschinelles Lernen: Lernen automatisieren
1 4 2 data mining
1.4.2. Data Mining
  • Aneignen von Wissen
  • Fähigkeit es zu verwenden
  • Gezielte Suche in Datenbanken
  • Analyse bereits vorhandener Daten
  • Suche nach Mustern
  • Ergebnisse ein weiteres Handeln einbeziehen
1 5 data mining und ethik
1.5. Data Mining und Ethik
  • problematisch sind rassische und sexuelle Informationen
  • Undurchschaubarkeit von Daten (unvorhersehbare Auswertungen)
  • Viele Daten werden für neue Analysen zusammengefasst
1 6 bias lernverfahren
1.6. Bias: Lernverfahren
  • Zur Bestimmung des Lernverfahrens
  • Sprachbias:
    • Ist die Beschreibung universal?
    • Wird domänenwissen genutzt
  • Suchbias:
    • bestmögliche Beschreibung finden
  • Bias zur Vermeidung der Überanpassung
2 eingabe
2. Eingabe
  • Wie werden die Daten zur Analyse eingegeben?
2 1 eingabe der daten
2.1. Eingabe der Daten
  • Konzepte
  • Instanzen
  • Attribute
2 1 1 konzepte
2.1.1. Konzepte
  • Unabhängig von Art des Lernens
  • Beschreibt was gelernt werden soll
  • Ausgabe des Lernverfahrens:
    • Baum
    • Regelmenge
2 1 2 instanzen
2.1.2. Instanzen
  • Jede Instanz ist ein eigenes Beispiel
  • Zeile in einer Tabelle
2 1 3 1 attribute
2.1.3.1. Attribute
  • Attribut ist Spalte einer Tabelle
  • Problem: Instanzen mit unterschiedlichen Attributen -> Möglichst viele Attribute
2 1 3 2 attribute
2.1.3.2. Attribute
  • Numerische Attribute
  • Nominale Attribute
  • Ordinale Attribute
2 2 beispiel
2.2. Beispiel
  • Wie sehen einzulesende Datenmengen aus?
  • Wie sehen Regelmengen aus?
2 3 aufbereitung
2.3. Aufbereitung
  • Aufbereitung der Eingabedaten
  • Integration von verschiedenen Datenquellen
  • Datacleaning
  • Data Warehousing
  • ARFF-Dateien
2 3 1 data warehousing
2.3.1. Data Warehousing
  • Zusammenfassung von Datenquellen
  • Unternehmensweite Datenbankintegration
  • Keine Abteilungsgrenzen
  • Aggregation von Daten
2 4 eingabe fehlende daten
2.4. Eingabe: Fehlende Daten
  • Einträge außerhalb Gültigkeit (-1)
  • Unterscheidung von fehlenden Daten(-1,-2)
  • Wegen verändertes Experiment
  • Wegen Messfehlern
  • Wegen Verweigerung
  • Ist Auftreten zufällig oder wichtig für Analyse?
2 5 eingabe genauigkeit
2.5. Eingabe: Genauigkeit
  • Daten für andere Zwecke gespeichert
  • Ungenauigkeiten plötzlich von anderer Bedeutung
  • Schreibfehler (sind Daten gleich?)
  • Bewusste Manipulation
2 6 arten des lernens
2.6. Arten des Lernens
  • Klassifizierendes Lernen
    • Vorhandene Daten in Klassen fassen
  • Numerische Vorhersage
    • Numerische statt diskrete Werte
  • Clustering
    • Gruppieren von Instanzen
3 ausgabe
3.6 Bäume für numerische Vorhersage

3.7 Instanzbasierte Darstellung

3.8 Cluster

3. Ausgabe

3.1 Entscheidungstabellen

3.2 Entscheidungsbäume

3.3 Klassifikationsregeln

3.4 Assoziationsregeln

3.5 Regeln mit Ausnahmen

3 1 entscheidungstabellen
3.1 Entscheidungstabellen
  • Einfachste, elementarste Methode
  • weniger einfach bei spezieller Auswahl von Attributen
  • Kompliziert: Auswahl der die Entscheidung nicht beeinflussenden Attribute
3 2 entscheidungsb ume
3.2 Entscheidungsbäume
  • Ansatz: Teile und Herrsche
  • Knoten eines Baumes bedingen Auswertung eines Attributs
  • Blätter stellen Klassifikationen dar
3 3 klassifikationsregeln
3.3 Klassifikationsregeln
  • Anwendung einer Regel verlangt Auswertung einer Menge von Attributen
  • Allgemein logische UND Verknüpfung der Bedingungen
  • Aus Baum: pro Blatt eine Regel, Auswertung jeder Regel eines Knotens auf dem Pfad von Wurzel zu Blatt
3 4 assoziationsregeln
3.4 Assoziationsregeln
  • Können nicht nur Klassen vorhersagen, sondern auch Attribute
  • Damit Vorhersage beliebiger Attributkombinationen
  • if temperatur =kalt
  • then luftfeuchtigkeit = normal
3 5 regeln mit ausnahmen
3.5 Regeln mit Ausnahmen
  • Vermeidung falscher Klassifikation durch Zulassen von Ausnahmen
  • Schaffen einer neuen Entscheidungsebene
  • Bei Fortsetzung erhält man Baumstruktur
  • if stimme = hoch then Frau
  • except if eunuch then Mann
3 6 b ume f r numerische vorhersagen
3.6 Bäume für numerische Vorhersagen
  • Auswertung eines numerischen Attributes
3 7 instanzbasierte darstellung
3.7 Instanzbasierte Darstellung
  • Auswendiglernen durch Merken von Trainingsinstanzen
  • Neue Instanz wird mit vorhandenen verglichen und der Klasse der ähnlichsten vorhandenen Instanz zugeordnet
  • BSP: Buchstabenerkennung
3 8 cluster
3.8 Cluster
  • Ausgabe eines Diagramms: Anzeige der in die Cluster eingeordneten Instanzen
  • Einfachster Fall: Zuweisung einer Clusternummer zu jeder Instanz
4 algorithmen
4.3 Teile und Herrsche

4.4 Abdeckungs- algorithmen

4. Algorithmen

4.1 Ableitung elementarer Regeln

4.2 statistische Modellierung

4 1 ableitung elementarer regeln
4.1 Ableitung elementarer Regeln
  • Baum auf einer Ebene
  • Auswertung einer Regelmenge eines Attributes
  • für jedes attribut
  • für jeden wert des attributes
      • zählen, wie oft jede klasse erscheint
      • klasse mit häufigsten auftreten ermitteln
      • regel aufstellen die diesem attributwert klasse zuordenet
      • fehlerrate der regeln berechnen
      • regelmenge mit kleinsten fehler auswählen
4 2 statistische modellierung
4.2 Statistische Modellierung
  • Nutzung aller Attribute
  • Gewichtung für alle Attribute gleich
  • Attribute werden als unabhängig voneinander angesehen
  • Rechnen mit Wahrscheinlichkeiten
  • Auswertung von Hypothesen und zugehörigen Ereignissen
4 3 teile und herrsche
4.3 Teile und Herrsche
  • Wahl eines Wurzelattributes
  • Anlegen einer Verzweigung für jeden Wert
  • Zerlegung der Beispielmenge in Untermengen, eine für jeden Wert des Attr.
  • Rekursive Anwendung für jede Verzweigung, nur Instanzen die Verzweigung erreichen
  • Alle Instanzen eines Knotens gleiche Klasse: Konstruktion des Baumabschn. fertig
4 4 abdeckungs algorithmen
4.4 Abdeckungs-Algorithmen
  • Betrachtung einzelner Klassen nacheinander
  • Abdeckung aller Instanzen
  • Auschluss klassenfremder Instanzen
  • Ableitung einer Regel in jedem Schritt die einige Instanzen abdeckt
5 glaubw rdigkeit
5. Glaubwürdigkeit
  • 5.1 Trainieren und Testen
  • 5.2 Leistungsvorhersage
  • 5.3 Kreuzvalidierung
  • 5.3.1 Leave one out
  • 5.4 Vorhersage von Wahrscheinlichkeiten
5 1 trainieren und testen
5.1 Trainieren und Testen
  • Bei richtiger Klassifikation: Erfolg
  • Andernfalls : Fehler
  • Angabe des Verhältnisses zwischen Erfolg und Fehler: Gesamtleistung des Klassifizierers
  • Nicht effektiv, da mit alten Daten gearbeitet wird, Vorhersage schwer möglich
5 2 leistungsvorhersage
5.2 Leistungsvorhersage
  • Fehlerrate (fr) sei bestimmt (5.1)
  • Bestimmung von Erfolgsrate (er): 1-fr
  • Mit Mitteln der Wahrscheinlichkeitsrechnung Bestimmung der Wahrscheinlichkeit von er.
  • Bei grossen Testreihen: Normalverteilung
5 3 kreuzvalidierung
5.3Kreuzvalidierung
  • Aufteilung der Datenmenge in Test und Trainingsmenge, feste Partitionen (Bsp3)
  • Garantiert beste Mischung der Beispiele aller Klassen
  • Nacheinander Ausführung von:
    • Testen einer Partition, trainieren mit den zwei Anderen
5 3 1 leave one out
5.3.1 Leave-one-out
  • N-fache Kreuzvalidierung
  • N ist Anzahl der Instanzen in der Datenmenge
  • Nacheinander:
    • Weglassen einer Instanz
    • Training mit restlichen Instanzen

Auswertung aller N Ergebnisse durch Mittelwertbildung

5 4 vorhersage von wahrscheinlichkeiten
5.4 Vorhersage von Wahrscheinlichkeiten
  • Bisheriges Ziel: hohe Erfolgsrate für Vorhersage
  • Nicht mehr wahr oder falsch (Vorhersage hat tatsächlichen Wert der Instanz)
  • Einführung beliebig vieler Abstufungen
  • Verschiedene Gewichtung von unterschiedlichen Vorhersageergebnissen
6 maschinelles lernen in der praxis
6. Maschinelles Lernen in der Praxis
  • Algorithmen sind in Praxis viel komplexer
  • Behandlung realer Probleme
  • Schwerpunkte: numerische Attribute

Fehlerbehandlung

  • Anwendung von Statistiken
6 1 entscheidunsb ume
6.1 Entscheidunsbäume
  • Erweiterung des Teile-und-herrsche Algo:
    • Behandlung numerischer und fehlender Werte
    • Beschneidung (wegen Überanpassung)
    • Umwandlung der Entscheidungsäume in Klassifikationsregeln
6 1 1 numerische werte

64

65

68

69

70

71

72

75

80

81

83

85

yes

no

yes

yes

yes

no

yes

no

no

yes

yes

no

6.1.1 Numerische Werte
  • Anpassung an nominale (boolsche) Struktur
  • Beispiel: Temperaturabfrage
6 1 2 fehlende werte
6.1.2 Fehlende Werte
  • Zerlegung der Instanz, unter Verwendung numerischer Gewichtung, und Bearbeitung mit allen Verzweigungen des Baumes
  • Bei Erreichen eines Blattknotens: Zusammenfügen der Entscheidungen des Blattknotens unter Verwendung der Gewichtung, die mit “durchgesickert” ist
6 1 3 pruning
6.1.3 Pruning

6.1.3.1 Postpruning:

Nachträgliches Beschneiden des fertigen Baumes („zusammengehörige Attribute“)

  • 6.1.3.2 Prepruning
  • Beschneidung während der Baumbildung
  • (Arbeitseinsparung)
6 1 4 von b umen zu regeln
6.1.4 Von Bäumen zu Regeln
  • Pro Blatt eine Regel
  • Alle Auswertungen von Wurzel zum Blatt werden UND-verknüpft
  • Löschen von Bedingungen, die keinen, oder schlechten, Einfluß auf Regel haben
  • Entfernen von Regelduplikaten
6 2 clustering
6.2 Clustering
  • Ziel: Einteilung der Instanzen in natürliche Gruppen
  • Arten von Clustern:
    • Ausschliessende
    • Überlappende
    • Wahrscheinlichkeitsverteilte
    • Hierarchisch (Vererbungsebenen)
6 2 1 k mittelwert clustering
6.2.1 k-Mittelwert Clustering
  • Bildung von k Clustern in numerischen Domänen, durch Aufteilung der Instanzen in disjunkte (elementefremd) Cluster
  • Wahl von Zentren und Zuweisung der Instanzen zum nächstliegenden Zentrum
  • Mittelwertbildung aller Instanzen-neues Zentrum
  • Wiederholung bis keine neuen Zentren entstehen
6 2 2 inkrementelles clustering
6.2.2 inkrementelles Clustering
  • Hierarchische Gruppierung der Instanzen aufgrund eines

„Quallitätsmasses

“(auch Kategorienützlichkeit) für Cluster

  • Inkrementell (feinere Aufteilung Instanz für Instanz)
6 2 3 statistisches clustering
6.2.3 Statistisches Clustering
  • Mischmodell aus verschiedenen Wahrscheinlichkeitsverteilungen
  • Eine Verteilung pro Cluster
  • Jede Verteilung gibt Wahrscheinlichkeit für Clusterzugehörigkeit einer Instanz an (jede Instanz genau zu einem Cluster)
vielen dank f r die aufmerksamkeit
Vielen Dank für die Aufmerksamkeit
  • Wir wünschen ein allseits schönes Wochenende.
  • Noch Fragen? (rhetorische Frage)
quellen
Quellen
  • Titel: Data Mining
  • Praktische Werkzeuge und Techniken für das maschinelles Lernen
  • Autoren: Ian H. Witten, Eibe Frank