1 / 21

Seminar: Neue Ansätze der KI

Seminar: Neue Ansätze der KI. Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund, 4.6.2002 1. Inhaltsverzeichnis. Klassifikation Entscheidungsbaum

jena-wall
Download Presentation

Seminar: Neue Ansätze der KI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seminar:Neue Ansätze der KI Thema des Referats: SPRINT: A scalable parallel classifier for Data Mining Athina Poppi Uni Dortmund, 4.6.2002 1

  2. Inhaltsverzeichnis • Klassifikation • Entscheidungsbaum • SPRINT • Fazit • Literatur Athina Poppi Uni Dortmund, 4.6.2002 2

  3. 1.1 Klassifikation • Ziel: Bildung eines Klassifikationsmodells um die Datenzugehörigkeit vorher sagen zu können. • Verschiedene Methoden. Am beliebtesten: Entscheidungsbäume (sie können relativ schnell konstruiert werden, sind einfach zu interpretieren und man erreicht ähnliche, oft auch bessere Genauigkeit) • Anwendung: Kleinzielmarketing, Betrugabfragung und medizinische Diagnose Athina Poppi Uni Dortmund, 4.6.2002 3

  4. 1.2 Klassifikationsmodell • Training Set: Datenmenge zur Bildung der Klassifikationsmodells. • Training Sample: Einzelne Datensätze. • Attribute: continuous (zB Einkommen, Alter) oder categorical (zB Autotyp, Sportart). • Continuous # categorical: geordnet # ungeordnet • Classifying attribute Athina Poppi Uni Dortmund, 4.6.2002 4

  5. 2.1 Entscheidungsbaum • Besteht aus mehreren Knoten • Jeder Knoten ist ein Blatt oder ein Entscheidungsknoten (split point) • Blatt: repräsentiert eine Klasse • Split point: Hier wird der Test durchgeführt Athina Poppi Uni Dortmund, 4.6.2002 5

  6. 2.2 Beispiel: Autoversicherung Age<25 nein CarType in{Sports} ja nein ja High High Low Decision tree Training Set Athina Poppi Uni Dortmund, 4.6.2002 6

  7. 3. SPRINT • Scalable PaRallelizable Indution of decision Trees • Entwicklung: IBM Almaden • Decision-tree-based classification algorithm • Serial algorithm • Excellent scaleup, speedup and sizeup properties Athina Poppi Uni Dortmund, 4.6.2002 7

  8. 3.1 Serienalgorithmus • 2 Phasen: growth and prune phase. • growth phase: Der Baum wird errichtet,also man verteilt die Daten rekursiv. • prune phase: Der Baum wird gestutzt bzw. verallgemeinert um eine Überanpassung des Baums aufgrund von Ausreissern oder fehlerhafte Daten in den Trainingsdaten zu verhindern. Zeit benötigt: nur ca. 1% der Gesamtlaufzeit bei die Baumbildung Athina Poppi Uni Dortmund, 4.6.2002 8

  9. 3.2 Recursive Tree-growth algorithm Partition (Data S) if (all points in S are from the same class) then return; for each attribute A do evaluate splits on attribute A; Use best split found to partition S into S1 and S2; Partition (S1); Partition (S2); Initial call: Partition(TrainingData) Athina Poppi Uni Dortmund, 4.6.2002 9

  10. 3.3 Datenstrukturen • Attribute lists: Jeder Eintrag besteht aus einem Attributwert, dem Klassenwert und einem Schlüssel (Tupel Identifier, Tid). • Histograms: • continuous: 2 Histogramms kommunizieren mit jedem Entscheidungsbaum. • Categorical: brauchen nur 1 Histogram (count matrix). Athina Poppi Uni Dortmund, 4.6.2002 10

  11. 3.4 Splitting a node´s attribute lists Attribute lists for node 1 Attribute lists for node 0 Age<27.5 1 2 Athina Poppi Uni Dortmund, 4.6.2002 11

  12. 3.5 Evaluating continuous split points State of class Histograms Position of Cursor in scan H L Attribute List Cbelow Cabove Position 0 Cbelow Cabove Position 3 Cbelow Cabove Position 6 Athina Poppi Uni Dortmund, 4.6.2002 12

  13. 3.6Evaluating categorical split points Attribute List Count matrix H L Family Sports truck Athina Poppi Uni Dortmund, 4.6.2002 13

  14. 3.7 Finding Split points • Ein Split-Test ist abhängig vom Typ des Attributs. • continuous: A<x, x ist ein Attributwert von der Wertebereich von A. • categorical: BeS, S Teilmenge der Wertemenge von B. • Beste Split Point: teilt am besten die mit diesem Knoten verbundene Trainingsdaten auf. • Die Güte der Aufteilung sind abhängig von wie gut der Split die verschiedenen Klassen von einander trennt. Athina Poppi Uni Dortmund, 4.6.2002 14

  15. 3.8 Parallelizing Classification • Growth phase: The primary problem remains finding gut split points and partitioning the data using the discovered split-points. • SPRINT: parallelizes quite naturally and efficiently (design). • Each processor works on only 1/N of the total data • Finding split-points:similar to the serial version. Differences appears only before and after the attribute-list partitions are scanned. • Continuous: Differences in Cbelow and Cabove • Categorical: global count matrix Athina Poppi Uni Dortmund, 4.6.2002 15

  16. 3.9 Parallel Data Placement Processor 0 Processor 1 Athina Poppi Uni Dortmund, 4.6.2002 16

  17. 3.10 Speedup of SPRINT Athina Poppi Uni Dortmund, 4.6.2002 17

  18. 3.11 Leistung • Das parallization werden an Primitiven einer 16-node verwendenden Standard-MPI IBM SP2 Kommunikation des Modells 9076 durchgeführt. • Jeder Nullpunkt hat einen Prozessor, an 62.5MHZ mit 128Mb des Gedächtnisses zu laufen. • Alle Prozessoren laufen auf AIX-Niveau 4,1 • Obwohl SPRINT langsamer als andere Algorithmen ist, stellt er ein fast lineares scaleup aus. Athina Poppi Uni Dortmund, 4.6.2002 18

  19. 3.12 Uniprocessor performance Athina Poppi Uni Dortmund, 4.6.2002 19

  20. 4. Fazit SPRINT ist einer Klassifikationsalgorithmus der ausgezeichnetes scalability ausstellt und in der Lage ist, grosse Datensätze anzufassen, dass andere Algorithmen nicht imstande sind. ABER: • Es werden bedeutende Kommunikationsunkosten pro Prozessor vorgestellt. • Die Prüfenstruktur (die als hashtable eingeführt wird), ist das intensive Gedächtnis und hat die Grösse des gleichen Auftrages, der die Grösse des Ausgangstrainings einstellt . Verbesserte Version von SPRINT: ScalPacC Athina Poppi Uni Dortmund, 4.6.2002 20

  21. 5. Literaturliste • SPRINT: a Scalable Paraller Classifier for Data Mining, John Shafer, Rakesh Agrawal, Manish Mehta, Proceedings of the 22th VLDB Conference Mumbai (Bombay), India, 1996 • Parallele Data Mining Algorithmen, Bearbeiter: Rudi Husser, Betreuer: Ralf Rantzau, Prüfer: Prof. Bernhard Mitschang, Datum: 21.02.02, Uni Stuttgart • Vorlesung KDD, Ludwig-Maximilians-Universität München, WS 2000/2001 Athina Poppi Uni Dortmund, 4.6.2002 21

More Related