1 / 28

Classification of Credit Applicants Using Data Mining.

Thema. Classification of Credit Applicants Using Data Mining. Gruppe E1-116 a. Yue Sun Frank Moritz Jasmin Catovic Andr é B ünger Supervisor: Thomas D. Nielson. Aufgabenstellung. Klassifizierung von Kreditnehmern mittels Datamining genutzte Techniken: Entscheidungsbäume

athena-boyd
Download Presentation

Classification of Credit Applicants Using Data Mining.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Thema Classification of Credit Applicants Using Data Mining.

  2. Gruppe E1-116 a • Yue Sun • Frank Moritz • Jasmin Catovic • André Bünger • Supervisor: Thomas D. Nielson

  3. Aufgabenstellung • Klassifizierung von Kreditnehmern mittels Datamining • genutzte Techniken: • Entscheidungsbäume • Neuronale Netze • Naive Bayes Klassifizierer

  4. Aufbau der Präsentation • verwendete Datenbank • Benutze Algorithmen • Experimente und Ergebnisse • Schlussfolgerung

  5. Die Datenbank • Name: • Determining the solidness of borrowers via Credit-Scoring • Herkunft: • Statistisches Archiv der Universität München

  6. Datenbank 2 • 1000 Datensätze • 21 Attribute • 20 Merkmalsattribute • 3 stetige • 17 diskrete • 1 Zielattribut (kreditwürdig, nicht kreditwürdig)

  7. Trainings- und Testsets • 5 verschiedene Sets • Größe der Testsets : 300 Datensätze • Größe der Trainingsets : • 700 Datensätze • 500 Datensätze • 300 Datensätze • 100 Datensätze

  8. Diskretisierung • Naive Bayes benötige diskrete Attribute • 2 verschiedene Methoden benutzt • vorgegebener Vorschlag („Expertenmeinung“) • recursive minimal entropy partitioning (RMEP)

  9. RMEP • teilt stetige Attribute, so dass Intervalle mit gleichem Zielattributwert gebildet werden • Realisiert mit Weka DiscretizeFilter (MDL)

  10. Naive Bayes Klassifizierer • basiert auf Bayes Theorie der bedingten Wahrscheinlichkeit • Annahme das die Attribute unabhängig voneinander sind

  11. Struktur Creditability Balance F Worker Duration Credit History ...

  12. Entscheidungsbäume • verwendete Software : Clementine 6.0 • Clementine verwendete den C5 Algorithmus • C5 ist eine Verbesserung von C4.5 • basiert auf ID3

  13. Neuronale Netze • Verwendete Software : Clementine 6.0 • Vorwärtsverkettete Netze • eine versteckte Schicht mit 5 Neuronen

  14. Experimente Ziel: den besten Klassifizierer finden Variation von Parametern Naive Bayes : m-estimate of probability Entscheidungsbäume : Pruningrate, Kosten neuronale Netze: Momentum, Lernrate

  15. Entscheidungsbäume „Expertenmeinung“

  16. Vergleich der Diskretisierungsmethodenbei 700 Datensätzen

  17. Vergleich der Klassifikation in kreditwürdig/nicht kreditwürdig bei 700 DS und “Expertenmeinung”

  18. Probleme bei der Klassifikation • Viele nichtkreditwürdige werden als kreditwürdig klassifiziert • Mit erhöhtem Pruning werden mehr als kreditwürdig klassifiziert • Problemlösungsversuch: • Kosten für Missklasssifikation erhöht • Ergebnis : keine Verbesserung

  19. Neuronale Netze trainiert mit 700 Datensätzen und Momentum = 0.5

  20. Vergleich der Klassifikation trainiert mit 700 Datensätzen, “Expertenmeinung”, momentum=0.5

  21. Probleme • Viele Nichtkreditwürdige werden als kreditwürdig klassifiziert • Stark unterschiedliche Ergebnisse bei Modellen mit den gleichen Parametern und Datensätzen (bis zu 17%)

  22. Naive Bayes Klassifizierer „Expertenmeinung“

  23. Vergleich von „Expertenmeinung“ und RMEP bei 700 Datensätzen

  24. Vergleich der Klassifikation bei 700 Datensätzen und “Expertenmeinung”

  25. Vergleich der besten Ergebnisse • Entscheidungsbäume: • Original : 72,07% mit pruningrate von 80 • RMEP: 71,20% mit pruningrate von 80 • EM: 73,40% mit pruningrate von 60 • Neuronale Netze • original: 74,07% mit alpha 0.5 und eta 0.5 • RMEP: 75,34% mit alpha 0.5 und eta 0.2 • EM: 74,53% mit alpha 0.5 und eta 0.1 • Naive Bayes Klassifizierer • RMEP: 74,73% mit m=5 • EM: 74,87% mit m=10

  26. Vergleich 2 0 1 insgesamt Entscheidungsbäume : 47% 86% 73,40% Neuronale Netze: 46% 87% 75,34% Naive Bayes Klassifizierer: 53% 84% 74,87%

  27. Zusammenfassung • bestes Resultat mit neuronalen Netzen • aber keine großen Unterschiede • Naive Bayes Klassifizierer klassifiziert nichtkreditwürdige Kreditnehmer am besten • gleiche Probleme bei der Klassifikation von nichtkreditwürdigen Kreditnehmern

  28. Fazit • bester Klassifizierer ist der Naive Bayes Klassifizierer, da er nichtkreditwürdige Kunden besser klassifiziert als die anderen zwei Methoden. • dadurch Reduzierung der Kreditausfälle für die Bank

More Related