1 / 36

Többváltozós adatelemzés

Többváltozós adatelemzés. 11. előadás. Döntési fák. Nem a klasszikus statisztikai módszertan terméke Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában Több algoritmus együttes neve. Döntési fák.

tryna
Download Presentation

Többváltozós adatelemzés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Többváltozós adatelemzés 11. előadás

  2. Döntési fák • Nem a klasszikus statisztikai módszertan terméke • Ún. adatbányászati technika (mesterséges intelligencia, machine learning) kezd meghonosodni a statisztikában • Több algoritmus együttes neve

  3. Döntési fák • Meg szoktak különböztetni klasszifikációs és regressziós fákat: • Klasszifikációs fák esetén az eredményváltozó egy kategóriaváltozó (nem feltétlenül két kategóriájú) • Regressziós fák esetén az eredményváltozó egy legalább intervallum szinten mért (folytonos) változó

  4. Döntési fák • A döntési fák előnye, hogy az adatokban meglévő nemlineáris hatásokat képesek észrevenni és lekövetni • Hátránya, hogy az ez előző pontban leírt rugalmasság lehet túlzott is: már nem az általános érvényű összefüggéseket tárja fel, hanem csak az arra az adatbázisra jellemző specialitásokat, ‘rátanul a zajra’.

  5. Döntési fák • A döntési fák módszertana (alapesetben) két részből áll: • Elágaztatás • Metszés. Az elágaztatott fák visszametszése

  6. Elágaztatás • Adott egy ún. tisztasági mérték. A tisztasági mérték azt mutatja, hogy az összsokaság mennyire homogén • Tisztasági mértékre több mutatószám lehetséges: • Ún. Gini index • Entrópia • Khi-négyzet statisztika • Stb …

  7. Elágaztatás • Az összsokaságot kétfele (vagy többfele) osztjuk úgy, hogy a részsokaságok tisztasága a lehető legnagyobb mértékben növekedjen

  8. Elágaztatás Gini index: 2*p*(1-p), ahol p a ‘comeniusI’ arányát jelenti Esetünkben: 2*0,737*0,263=0,388

  9. Elágaztatás Gini növekmény: 0,388-0,927*(2*0,739*0,261)-0,073*(2*0,712*0,288)=0,000464

  10. Elágaztatás Gini növekmény: 0,388-0,263*(2*0,966*0,034)-0,737*(2*0,655*0,345)=0,037637

  11. Elágaztatás • Megkeressük azt az elágaztatást, amely esetén a tisztasági mérték a lehető legnagyobb mértékben nő • Kérdés, hogy hányfelé ágaztatunk. Ez alapján beszélhetünk bineáris illetve nem bineáris fákról • Nominális változók esetén az összes lehetséges párosítást figyelembe veszi. Ordinális változók esetén a sorrendet nem bontja meg, ‘folytonos’ változók esetén nem veszi figyelembe az összes lehetséges vágást, csak pl. a deciliseket.

  12. CRT (CART) algoritmus • Classification And Regresion Tree • Az egyik ‘klasszikus’ eljárás • Általában bineáris fákat hoz létre • Általában a Gini index tisztasági mérték

  13. CRT algoritmus

  14. CRT algoritmus

  15. CRT algoritmus

  16. CRT algoritmus Tanuló állomány Teszt állomány

  17. CRT algoritmus • A döntési fát nem érdemes engedni, hogy minden határon túl nőjön, vagy ha engedtük túl nagyra nőni érdemes visszametszeni

  18. CRT algoritmus • Meddig engedjük nőni a döntési fát? • ‘Klasszikus’ megfontolás: egy fát addig engedünk nőni, amíg az újonnan létrejövő vágások nemcsak a tanuló, hanem a tesztadatokon is javulást mutatnak. Ha ennél tovább engedjük nőni, akkor már csak az adott adatbázis specialitásait fedezi fel (‘rátanul a zajra’).

  19. CRT algoritmus Teszt állomány Tanuló állomány

  20. CRT algoritmus

  21. CRT algoritmus • A fa növekedését nem engedjük bizonyos határon túl nőni: • Meg lehet szabni a fa maximális mélységét • Meg lehet szabni, hogy egy ‘levélen’ minimum mennyi megfigyelésnek kell lenni. Ez lehet abszolút érték is és lehet relatív is

  22. CRT algoritmus • A döntési fa még akkor is ‘rátanulhat a zajra’, ha a növekedésére korlátokat szabunk. Ezért a döntési fát vissza szokás metszeni (pruning).

  23. CRT algoritmus • Definiálunk egy mértéket, ami figyelembe veszi a fa méretét is és a besorolás jóságát is: • Rα(T)=R(T)+α|T|, ahol R(T) besorolás jóságát mutatja, |T| pedig a döntési fa méretét (a ‘levelek’ számát).

  24. CRT algoritmus

  25. CRT algoritmus A visszametszett fa csak a ‘gyökeret’ tartalmazza

  26. CRT algoritmus • Mivel a metszés a helyesen besorolt megfigyelések alapján van elvegezve, ezért ha valamelyik kategória ‘kicsi valószínűségű’, akkor minden becsült érték a ‘nagy valószínűségű’ kategória lesz, tehát a besorolás jóságát nem tudja növelni a fa. Ezt elkerülendő nagyobb súlyt adhatunk bizonyos téves klasszifikációknak.

  27. CRT algoritmus

  28. CHAID algoritmus • Chi-square Automatic Interaction Detector • A CRT algoritmushoz képest sokkal inkább statisztikai alapú • A tisztasági mérték itt a Chi négyzet statisztika • Statisztikailag tudjuk tesztelni a növekedést, ezért nem szükséges a metszés • Egy ágaztatásnál 2-nél több ág is keletkezhet (nem bineáris fa)

  29. CHAID algoritmus • Folytonos változók: • Deciliseket hoz létre a változókból. Mindig a két legkevésbé különböző (a függetlenségvizsgálat során a nulhipotézist a legkisebb valószínűséggel utasítjuk vissza) decilist összevonja. Az összevonásokat addig ismétli, amig egy előre magadott szignifikancia szinten már el nem tudjuk utasítani a nulhipotézis.

  30. CHAID algoritmus • Diszkrét változók: • A meglévő kategóriákat vonja össze a függetlenségvizsgálat eredménye alapján. Nominális változók esetén bármelyik két kategóriát összevonhatja, ordinális változók esetén csak az egymás melletti kategóriákat.

  31. CHAID algoritmus • Mindegyik lehetséges változót megvizsgálja: elvégez egy függetlenségvizsgálatot az eredményváltozó kategóriái és a magyarázó változó (összevont) kategóriái alapján • Aszerint a változó szerint ágaztat, ahol nulhipotézist a legnagyobb valószínűséggel tudjuk visszautasítani, de legalább egy előre adott biztonági szinttel.

  32. CHAID algoritmus

  33. Exhaustive CHAID algoritmus • Nagyon hasonló a CHAID algoritmushoz, egy különbség van csak: • Amikor a deciliseket (vagy a kategóriaváltozókat) összevonja nem áll meg, hanem addig egyesíti a deciliseket, amig minden megfigyelés közös csoportb nem kerül. Ezután azt a felosztást fogadja el, amikor a függetlenséget a legnagyobb valószínűséggel tudjuk visszautasítani.

  34. Vágások • A vágások az SPSS programcsomagban a tengelyekkel párhuzamosan történnek. Ez a magyarázhatóságot nagyban segíti, azonban ez elméletet lehet alkalmazni akkor is, ha a vágások nem a tengelyekkel párhuzamosan történnek, hanem a változók valamilyen lineáris kombinációja mentén

  35. Vágások • Az elméletet továbbfejlesztették úgy is, hogy a vágások nem csak egyenesek mellett, hanem bármilyen más görbe mellett is lehetséges legyen (parabola, hiperbola, kör …)

  36. Döntési fák • A döntési fa algoritmusok az adatokban rejlő nemlineáris hatásokra maguktól rá tudnak találni. • Hátrányuk viszont, hogy az összsokaságot minden egyes vágásnál részeire bontja, így csak egyre erősebb hatásokat képes kimutatni.

More Related