1 / 45

Problemstellungen

Techniken des Maschinellen Lernens für “Data Mining” Ian Witten, Eibe Frank (übersetzt von Norbert Fuhr). 1. Problemstellungen. Data vs. Information Data Mining und Maschinelles Lernen Strukturelle Beschreibungen Regeln: Klassifikation und Assoziation Entscheidungsbäume Datensätze

galia
Download Presentation

Problemstellungen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Techniken des Maschinellen Lernens für “Data Mining”Ian Witten, Eibe Frank(übersetzt von Norbert Fuhr)

  2. 1 Problemstellungen • Data vs. Information • Data Mining und Maschinelles Lernen • Strukturelle Beschreibungen • Regeln: Klassifikation und Assoziation • Entscheidungsbäume • Datensätze • Wetter, Kontaktlinsen, CPU-Performance, Tarifverhandlungen, Klassifikation von Sojabohnen • Feldstudien • Kreditanträge, Bildanalyse, Lastvorhersage, Diagnose von Maschinenfehlern, Warenkorbanalyse • Generalisierung als Suche • Data Mining und Ethik

  3. 1 Daten vs. Information • Unsere Gesellschaft produziert riesige Datenmengen • Quellen: Naturwissenschaften, Medizin, Wirtschaft, Geografie, Umwelt, Sport, … • Potenziell wertvolle Ressourcen • Rohdaten sind nutzlos: Techniken zur automatischen Extraktion von Information benötigt: • Daten: aufgezeichnete Fakten • Information: den Daten zugrundeliegende Muster

  4. Information ist entscheidend • Beispiel 1: künstliche Befruchtung • Gegeben: Embryonen, beschrieben durch 60 Merkmale • Problem: Auswahl der Embryonen, die überleben werden • Daten: gesammelte Fakten über bisherig Embryonen und deren Schicksal • Beispiel 2: Haltung von Milchkühen • Gegeben: Kühe, beschrieben durch 700 Merkmale • Probleme: Auswahl der Kühe, die geschlachtet werden sollten • Daten: Aufzeichnungen über Kühe in den zurückliegenden Jahren und die Entscheidungen der Bauern

  5. Data Mining • Extraktion von • impliziter, • bislang unbekannter, • potenziell nützlicher Information aus Daten • Gesucht: Programme, die Muster und Regularitäten in den Daten entdecken • Ausgeprägte Muster können für Vorhersagen genutzt werden: • Problem 1: Die meisten Muster sind uninteressant • Problem 2: Muster können unscharf sein (oder extrem fragwürdig), falls die Daten unvollständig oder fehlerhaft sind

  6. Techniken des Maschinellen Lernens • Technische Basis für Data Mining: Algorithmen zum Lernen von strukturellen Beschreibungen aus Beispielen • Strukturelle Beschreibungen repräsentieren implizit Muster: • Nutzung zur Vorhersage in neuen Situationen • Nutzung, um die Vorhersage zu verstehen und zur Erklärung des Zustandekommens der Vorhersage (evtl. sogar wichtiger) • Methoden stammen aus der künstlichen Intelligenz, Statistik und der Datenbank-forschung

  7. Strukturelle Beschreibungen • Beispiel: Wenn-Dann-Regeln

  8. Schwierig zu messen Trivial für Computer • Operationale Definition: Wesen lernen, wenn sie ihr Verhalten in einer Weise so ändern, dass sie in Zukunft erfolgreicher agieren Lernt ein Schuh? • Muss Lernen bewusst erfolgen? Können Maschinen lernen? • Lexikon-Definition von “Lernen”: Wissen sammeln durch Studium, Erfahrung, oder durch einen Lehrer Bewusst werden durch Informieren oder durch Beobachtung Im Gedächtnis abspeichern Informiert werden, sich vergewissern, Anleitung erhalten

  9. Das Wetterproblem • Bedingungen, um ein unspezifiziertes Spiel zu spielen:

  10. Ross Quinlan • Machine learning researcher from 1970’s • University of Sydney, Australia 1986 “Induction of decision trees” ML Journal 1993 C4.5: Programs for machine learning. Morgan Kaufmann 199? Started

  11. Klassifikations- vs. Assoziationsregeln • Klassifikationsregeln:Vorhersage des Wertes einer spezifischen Attributs (die Klassifikation des Beispiels) • Assoziationsregeln:Vorhersage des Wertes eines beliebigen Attributs, oder einer Attributkombination

  12. Wetterdaten mit gemischten Attributen • Zwei Attribute mit numerischen Werten

  13. Die Kontaktlinsen-Daten

  14. Eine vollständige und korrekte Regelmenge

  15. Ein Entscheidungsbaum für dasselbe Problem

  16. Klassifikation von Irisblumen

  17. Vorhersage der CPU-Performanz • Beispiele: 209 verschiedene Computer-Konfigurationen • Lineare Regressionsfunktion

  18. Daten aus Tarifverhandlungen

  19. Entscheidungs-bäume für die Tarifdaten

  20. Klassifikation von Sojabohnen

  21. Die Rolle von Domänenwissen Aber (bei dieser Anwendung): “leaf condition is normal” impliziert “leaf malformation is absent”!

  22. Feld-Anwendungen • Das Lernergebnis oder die Lernmethode selbst wird in praktischen Anwendungen eingesetzt • Reduzierung der Verzögerungen beim Rotationsdruck • Formgebung von Flugzeugteilen • Automatische Klassifikation von Flugobjekten • Automatische Vervollständigung von sich wiederholenden Formularen • Text-Retrieval • …

  23. Entscheidung von Kreditanträgen • Gegeben: Fragebogen mit Angaben zur Person und deren finanzielle Situation • Problem: soll der Kredit gewährt werden? • Einfache statistische Methode deckt 90% aller Fälle ab • Aber: 50% aller Grenzfälle führen zu Kreditausfällen • Lösung(?): alle Grenzfälle zurückweisen • Nein! Grenzfälle gehören zu den umsatzstärksten Kunden

  24. Anwendung von maschinellem Lernen • 1000 Trainingsbeispiele für Grenzfälle • 20 Attribute: • Alter, • Beschäftigungsdauer beim aktuellen Arbeitgeber, • Wohndauer an der gegenwärtigen Adresse, • Dauer der Kundenbeziehung zur Bank, • andere gewährte Kredite, … • Gelernte Regelmenge sagt 2/3 der Grenzfälle korrekt voraus! • Außerdem: Firma mag die Regeln, da sie benutzt werden können, um den Kunden gegenüber die Kreditentscheidung zu erläutern

  25. Analyse von Luftbildern • Gegeben: Satellitenbilder von Küstengewässern • Problem: Auffinden von Ölflecken in diesen Bildern • Ölflecken erscheinen als dunkle Regionen unterschiedlicher Größe und Gestalt • Schwierigkeit: ähnliche dunkle Flecken können durch bestimmte Wetterbedingungen verursacht werden (z.B. starke Winde) • Aufwändige Analyse, erfordert lange geschultes Personal

  26. Anwendung von maschinellem Lernen • Dunkle Regionen werden aus normalisierten Bildern extrahiert • Attribute: • Größe der Region, Gestalt, Fläche, Intensität, • Schärfe und Zackung der Grenzen, • Nähe zu anderen Regionen, • Informationen über den Hintergrund • Randbedingungen: • Wenige Trainingsbeispiele (Ölflecken treten selten auf) • Unbalancierte Daten: die meisten dunklen Regionen sind keine Ölflecken • Regionen aus einem Bild werden gemeinsam prozessiert • Anforderung: einstellbare Quote für Fehlalarme

  27. Last-Vorhersage • Elektrizitätswerke benötigen Vorhersagen über den zukünftigen Energiebedarf zu bestimmten Zeitpunkten • Präzise Vorhersagen über die minimale und die maximale Last innerhalb jeder Stunde führen zu beachtlichen Einsparungen • Gegeben: manuell konstruiertes statisches Modell, das “normale” Wetterbedingungen voraussetzt • Problem: Anpassung an konkrete Wetterbedingungen • Parameter des statischen Modells: • Grundlast im laufenden Jahr, • Jahreszeitliche Lastschwankungen, • Einfluss von Feiertagen

  28. Anwendung von maschinellem Lernen • verbesserte Vorhersage durch Suche nach den “ähnlichsten Tagen” • Attribute: • Temperatur, • Luftfeuchtigkeit, • Windgeschwindigkeit, • Bewölkungsgrad, • zusätzlich Differenz zwischen tatsächlicher und vorhergesagter Last • Zum statischen Modell wird mittlere Differenz der drei ähnlichsten Tage addiert • Koeffizienten der linearen Regressions-funktion stellen Attributgewichtungen in der Ähnlichkeitsfunktion dar

  29. Diagnose von Maschinenausfällen • Diagnose: klassisches Anwendungsgebiet der Expertensysteme • Gegeben: Fourier-Analyse von Vibrationen an verschiedenen Stellen des Gehäuses • Problem: Welcher Fehler liegt vor? • Vorbeugende Wartung der elektromechanischen Motoren und Generatoren • Daten sind stark verrauscht • Bisher: Diagnose durch Experten/manuell erstellte Regeln

  30. Anwendung von maschinellem Lernen • Ausgangsdaten: 600 Fehler mit Expertendiagnosen • ~300 ungeeignet, restliche Fälle als Trainingsmenge genutzt • Attribute angereichert um höhere Konzepte, die kausales Domänenwissen repräsentieren • Experte unzufrieden mit den initialen Regeln, da sie sich nicht auf sein Anwendungswissen bezogen • Weiteres Hintergrundwissen führte zu komplexeren Regeln, die zufriedenstellend waren • Gelernte Regeln besser als die manuell erstellten

  31. Marketing und Verkauf I • Firmen sammeln große Mengen an Verkaufs- und Marketingdaten • Mögliche Anwendungen: • Kundentreue: Identifikation von Kunden, die potenziell bald “abspringen”, durch Erkennen von Änderungen in deren Verhalten (z.B. Banken, Telefongesellschaften) • Spezielle Angebote: Identifikation von profitablen Kunden (z.B. zuverlässige Kunden von Kreditkartenunternehmen, die ein höheres Limit in der Urlaubszeit benötigen)

  32. Marketing und Verkauf II • Warenkorb-Analyse • Assoziationstechniken, um Gruppen von Waren zu finden, die häufig zusammen gekauft werden • Analyse von Einkaufsmustern in der Vergangenheit • Identifikation von guten Kunden • Fokussierung von Werbesendungen (gezielte Kampagnen sind billiger als Massen-Werbesendungen)

  33. Maschinelles Lernen und Statistik • Historische Unterschiede (vereinfacht): • Statistik: Hypothesen-Tests • Maschinelles Lernen: Suche nach den richtigen Hypothesen • Aber: große Überlappungen • Entscheidungsbäume (C4.5 und CART) • Nächster-Nachbar-Methoden • Heute: ähnliche Ziele • Die meisten ML-Algorithmen benutzen statistische Techniken

  34. Statisticians • Sir Ronald Aylmer Fisher • Born: 17 Feb 1890 London, EnglandDied: 29 July 1962 Adelaide, Australia • Numerous distinguished contributions to developing the theory and application of statistics for making quantitative a vast field of biology • Leo Breiman • Developed decision trees • 1984 Classification and Regression Trees. Wadsworth.

  35. Generalisierung als Suche • Induktives Lernen: Suche nach einer Konzeptbeschreibung, die zu den Daten passt • Beispiel: Regelmenge als Beschreibungssprache • Riesiger, aber endlicher Suchraum • Einfache Lösung: • Aufzählen der Elemente des Konzeptraums • Eliminieren aller Beschreibungen, die nicht zu den Beispielen passen • Verbleibende Beschreibung stellt das gesuchte Konzept dar

  36. Aufzählen der Elemente des Konzeptraums • Suchraum für das Wetterproblem: • 4 x 4 x 3 x 3 x 2 = 288 mögliche Regeln • Beschränkung auf maximal 14 Regeln in der Beschreibung  2.7x1034 mögliche Regelmengen • Möglicher Ausweg: Algorithmus zur Eliminierung von Kandidaten • Weitere praktische Probleme: • Mehr als eine Beschreibung kann übrig bleiben • Keine Beschreibung bleibt übrig • Beschreibungssprache ist ungeeignet, um das Zielkonzept zu beschreiben • Daten können verrauscht sein

  37. Der Versionsraum • Raum von konsistenten Konzeptbeschreibungen • Komplett bestimmt durch 2 Mengen: • L: spezifischste Beschreibungen, die alle positiven und keine negativen Beispiele abdecken • G: generellste Beschreibungen, die keine negativen und alle positiven Beispiele abdecken • Nur L und G müssen verwaltet und aktualisiert werden • Aber: immer noch hoher Berechnungsaufwand • Und: löst die anderen praktischen Problem nicht

  38. Versionsraum: Beispiel • Gegeben: Rote oder grüne Kühe oder Hühner

  39. Algorithmus zur Kandidaten-Eliminierung

  40. Bias (systematische Fehler) • Die wichtigsten Entscheidungen in Lernsystemen: • Konzept-Beschreibungssprache • Reihenfolge, in der der Raum durchsucht wird • Vermeidung der Überadaption an die Trainingsdaten • Diese Eigenschaften bestimmen den “Bias” der Suche • Beschreibungssprachen-Bias • Such-Bias • Überadaptions-Vermeidungs-Bias

  41. Beschreibungssprachen-Bias • Wichtigste Frage: • Ist die Sprache universell oder beschränkt sie das zu Lernende? • Universelle Sprache kann beliebige Teilmengen der Beispiele beschreiben • Wenn die Sprache die Oder-Verknüpfung von Aussagen zulässt, ist sie universell • Domänenwissen kann benutzt werden, um einige Konzeptbeschreibungen von vornherein von der Suche auszuschließen

  42. Such-Bias • Such-Heuristik • “Greedy”-Suche: wähle jeweils den besten Einzelschritt aus • “Beam”-Suche: Behalte mehrere Alternativen im Auge • … • Richtung der Suche • Vom Allgemeinen zum Speziellen • Z.B. Spezialisieren einer Regel durch Hinzufügen von Bedingungen • Vom Speziellen zum Allgemeinen • Z.B. Generalisierung einer einzelnen Instanz zu einer Regel

  43. Überadaptions-Vermeidungs-Bias • Kann als Teil des Such-Bias gesehen werden • Modifiziertes Bewertungskriterium • Z.B. Balance zwischen Einfachheit und Fehleranzahl • Modifizierte Suchstrategie • Z.B. Pruning (Vereinfachen einer Beschreibung) • Pre-Pruning: Stoppt bei einer einfachen Beschreibung, bevor übermäßig komplexe Beschreibungen generiert werden • Post-Pruning: Generiert zunächst eine komplexe Beschreibung, die anschließend vereinfacht wird

  44. Data Mining und Ethik I • Viele ethische Fragen werden bei praktischen Anwendungen aufgeworfen • Data Mining wird oft zur Diskriminierung benutzt • Z.B. Kreditanträge: Berücksichtigung bestimmter Attribute (z.B. Geschlecht, Rasse, Religion) ist unethisch • Die Frage der Ethik ist anwendungsabhängig • z.B. ist die Verwendung obiger Attribute in medizinischen Anwendungen ok • Attribute können problematische Informationen beinhalten • Z.B. kann die Postleitzahl mit der Rasse korrelieren

  45. Data Mining und Ethik II • Wichtige Fragen in praktischen Anwendungen: • Wer hat Zugriff auf die Daten? • Für welchen Zweck wurden die Daten gesammelt • Welche Schlüsse können legitimerweise daraus gezogen werden? • Ergebnisse müssen unter Vorbehalt betrachtet werden • Rein statistische Argumente sind nie ausreichend! • Werden Ressourcen sinnvoll verwendet?

More Related