Paskaita 9 statistiniai klasifikavimo metodai
This presentation is the property of its rightful owner.
Sponsored Links
1 / 15

Paskaita 9. Statistiniai klasifikavimo metodai PowerPoint PPT Presentation


  • 84 Views
  • Uploaded on
  • Presentation posted in: General

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 9. Statistiniai klasifikavimo metodai. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <[email protected]>. Klasifikavimo uždaviniai. Jei priklausomas kintamasis įgyja kategorines reikšmes, galim a spręsti klasifikavimo uždavinius.

Download Presentation

Paskaita 9. Statistiniai klasifikavimo metodai

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Paskaita 9 statistiniai klasifikavimo metodai

DUOMENŲ GAVYBOS TECHNOLOGIJOS

Paskaita 9.Statistiniaiklasifikavimometodai

Leonidas Sakalauskas

VGTU ITK, VU MII

t. -85 2109323, <[email protected]>


Klasifikavimo u daviniai

Klasifikavimo uždaviniai

Jei priklausomas kintamasis įgyja kategorines reikšmes, galima spręsti klasifikavimo uždavinius.

Klasifikavimo tikslas - pagal duotus objektus ir žinomas jų klases nustatyti taisykles, pagal kurias objektai skirstomi į klases.


Klasifikavimo u daviniai1

Klasifikavimo uždaviniai

Klasifikuojant tenka spręsti atskiriamumo (diskriminavimo) ir/arba klasifikavimo uždavinius:

  • diskriminavimo tikslas – pasinaudojant stebėjimų duomenimis, nustatyti taisykles, padedančias atskirti tiriamų objektų grupes, bei įvertinti diskriminavimo kokybę;

  • klasifikavimo tikslas – pasinaudojus diskriminavimo taisykle, priskirti objektus vienai iš klasių ir įvertinti klasifikavimo patikimumą.


Klasifikavimo u daviniai2

Klasifikavimo uždaviniai

Taigi, diskriminantinė analizė siekia dviejų tikslų: pirma – įvertinti grupių diskriminavimo galimybę, antra – rasti optimalias klasifikavimo taisykles.

Sukaupti duomenys, naudojami diskriminavimo taisyklėms sudaryti, vadinami mokymo imtimi, o pats taisyklių sudarymas – mokymu.

Diskriminantinė analizė neturi būti painiojama su klasterine analize – skirtingai nei klasterinėje analizėje, čia klasės iš anksto žinomos.


Diskriminantin s analiz s etapai

Diskriminantinės analizės etapai

Išskiriami šie diskriminantinės analizės etapai:

  • nustatoma, kurie kintamieji tinka tiriamų objektų diskriminavimui, bei pašalinami tie kintamieji, kurie nepadeda nustatyti klasių skirtumų.

  • ieškoma diskriminavimo priežasčių, įvertinama diskriminavimo kokybė.

  • parenkamas labiausiai tinkamas klasifikuoti būdas ir sudaromos klasifikavimo taisyklės (t.y. konstruojamos klasifikavimo funkcijos).

  • Įvertinamas klasifikavimo patikimumas.


Klasifikavimo u daviniai3

Klasifikavimo uždaviniai

Statistinės klasifikavimo taisyklės gali būti vaizduojamos tiesįmis, plokštumomis arba hiperplokštumomis.


Diskriminavimo kintamieji

Diskriminavimo kintamieji

Tegul matuojami kiekvieno objekto p intervalinių (vadinamų diskriminavimo) kintamųjų (požymių) (X1, X2, ..., Xp).

Žinoma, kad objektų populiaciją sudaro g klasių.

Tad imties duomenis sudaro stebėjimai (xijk), i = 1, ..., p, j = 1, ..., g, k = 1, ..., nj; čia (xijk) yra i-ojo kintamojo k-asis stebėjimas j-oje grupėje, nj – stebėjimų skaičius j-oje grupėje, o n = n1 + n2 + ... + ng – imties didumas.

Pvz., x121 yra kintamojo X1pirmasis stebėjimas antrojoje grupėje.


Diskriminavimo duomenys

Diskriminavimo duomenys

Diskriminavimo duomenys užrašomi į lentelę. Pageidautina, kad klasių didumai labai nesiskirtų.


Diskriminavimo prielaidos

Diskriminavimo prielaidos

  • klasių skaičius g yra baigtinis.

  • grupės yra nepriklausomos ir neturi bendrų objektų:

  • diskriminavimo kintamieji matuojami intervalų skalėje ir Xi ~ N(, Σ) ;

  • nė vienas diskriminavimo kintamasis negali būti kitų kintamųjų tiesinė daugdara.

  • diskriminavimo kintamųjų kovariacijų matricos grupėse vienodos.


Kintam j diskriminavimo geba

Kintamųjų diskriminavimo geba

Kintamųjų diskriminavimo savybės įvertinamos atsakant į klausimus:

Ar kintamasis diskriminuoja grupes?

Kintamojo diskriminavimo galimybės nustatomos pagal Fišerio kriterijų

Kurie kintamieji turi didesnę įtaką grupių diskriminavime?

Visiems kintamiesiems apskaičiuojama diskriminavimo charakteristika – Vilkso  statistika, kintanti [0; 1]. Kuo šios statistikos reikšmė mažesnė, tuo kintamasis geriau diskriminuoja grupes.


Kanonin s diskriminavimo funkcijos

Kanoninės diskriminavimo funkcijos

Diskriminavimui nasudojamos tiesinės daugdaros, vadinamos, kanoninėmis diskriminavimo funkcijomis, kurios:

- padeda įvertinti kiekybinį kiekvieno kintamojo indėlį diskriminuojant grupes;

- palengvina grupių skirtumų priežasčių interpretavimą;

- gali būti naudojamos ir klasifikavimui;

- grupių duomenų vaizdavimas kanoninių funkcijų erdvėje leidžia suvokti populiaciją sudarančių grupių skirtumus ir ryšius bei aptikti išskirtis.


Kanonini funkcij skai ius

Kanoninių funkcijų skaičius

Tinkamai parinkus koeficientus, galima gauti kelias diskriminavimui tinkamas tiesines kanonines daugdaras.

Didžiausias kanoninių funkcijų skaičius yra lygus mažesniam iš diskriminavimo kintamųjų skaičiaus p ir grupių skaičiaus g be vieno, t.y. min(g-1, p)


Kanonini funkcij radimas

Kanoninių funkcijų radimas

Kanoninių funkcijų koeficientai yra matricų sandaugos W-1B tikriniai vektoriai,

čia W – empirinė nuokrypių grupių viduje sandaugų matrica (arba vidinių nuokrypių matrica),

B – empirinė grupių nuokrypių sandaugų matrica (arba grupių nuokrypių matrica).

Didžiausią matricos W-1Btikrinę reikšmę atitinkančio tikrinio vektoriaus koordinatės sudaro pirmosios kanoninės funkcijos koeficientų aibė ir t.t.

Kanoninių funkcijų yra tiek, kiek ir tikrinių vektorių.


Kanonin s funkcijos

Kanoninės funkcijos

Taip gaunamos kanoninės funkcijos, kurių koeficientai li yra nestandartizuoti:

Yi = li1X1 + li2X2 + ... + lipXp + Ci, i = 1, ..., min(g-1, p).

Laisvasis kanoninės funkcijos narys (konstanta Ci) parenkamas taip, kad duomenų kanoninės funkcijos reikšmių empirinis vidurkis būtų lygus nuliui.


Kanonini funkcij savyb s

Kanoninių funkcijų savybės

Kanoninių funkcijų diskriminavimo savybėms įvertinti paprastai naudojami keli rodikliai.

Geriausiomis diskriminavimo savybėmis dažniausiai pasižymi pirmoji kanoninė funkcija, po to antroji ir t.t.

Kintamųjų indėliui į kanoninės funkcijos didumą įvertinti naudojamos standartizuotos kanoninės funkcijos.

Dviejų kanoninių funkcijų diskriminavimo savybes galima palyginti grafiškai.


  • Login