1 / 33

Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Atsitiktiniai dydžiai ir skirstiniai.

feoras
Download Presentation

Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DUOMENŲ GAVYBOS TECHNOLOGIJOS Paskaita 3.Tikimybinio modeliavimo ir robastinės duomenų gavybos principai Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>

  2. Atsitiktiniai dydžiai ir skirstiniai Skaitinės reikšmės,siejamos su atsitiktiniais įvykiais, yra vadinamos atsitiktiniais dydžiais (a.d.). Atsitiktinis dydis yra atsitiktinio įvykio funkcija. Atsitiktinį dydį X apibūdina jo galimų reikšmių aibė ir skirstinys. Atstiktinio dydžio galimų reikšmių aibę sudaro visos skaitinės reikšmės, kurias jis gali įgyti su nenuline tikimybe.

  3. Atsitiktiniai dydžiai ir skirstiniai Skirstinys yra funkcija, lygi tikimybei, kad atsitiktinio dydis X neviršyja reikšmės x: Taikomosiuose modeliuose dažniausiai pasitaiko diskretieji ir tolydieji a. d. Atsitiktinis dydis yra diskretusis, jeigu jo galimų reikšmių aibė baigtinė arba skaiti. Atsitiktinis dydis X vadinamas tolydžiuoju, jeigu jo galimų reikšmių aibė yra realiųjų skaičių intervalas arba tokių intervalų sąjunga.

  4. Atsitiktiniai dydžiai ir skirstiniai Svarbio a.d. charakteristikos yra vidurkis (tikėtina reikšmė): ir dispersija: vadinama standartiniu nuokrypiu

  5. Diskretieji dydžiai Discretusis a.d. aprašomas įgyjanų reikšmių tikimybėmis:

  6. Diskretieji dydžiai Diskrečiojo a.d. vidurkis yra išreiškiamas suma:

  7. Tolydieji a.d. Tolydusis a.d. yra nusakomas tikimybe tankio funkcija: Tokiu būdu:

  8. Tolydieji a.d. Lygties vadinamas a.d. p-kvantiliu

  9. Tolydieji a.d. Atsitiktinės funkcijos vidurkis:

  10. Normalusis skirstinys Tolydusis a.d. Yyra pasiskirstęs normaliai (arba pagal Gauso dėsnį), paprastai Žymimą N(μ, σ2), jei jo tankio funkcija (μ – vidurkis, σ – st. nuokrypis):

  11. Normalusis skirstinys Jei labai daug nepriklausomų atsitiktinių poveikių įtakoja kokį-nors parametrą, tai jo skirstinys būtinai yra normalusis. Tad normalusis ir su juo susiję skirstiniai dažnai taikomi tikimybiniam modeliavimui ir duomenų analizei.

  12. Eksponentiniai a.d. Eksponentinio a.d. skirstinys ir tankio funkcija: (λ - intensyvumas):

  13. Exponentinis a.d. Laiko trukmė tarp dviejų atsitiktinių įvykių dažnai pasiskirsčiusi pagal šį dėsnį, pvz., draudiminiai įvykiai, fiksuoto ryšio telefono skambučiai, ir pan. Kai trukmė tarp įvykių pasiskirsčiusi pagal eksponentinį dėsnį, įvykių skaičius intervale galima apskaičiuoti pagal Puasono dėsnį. Patikimumo uždaviniuose dažnai taikomi Gama ir Veibulo a.d., susiję su eksponentiniu a.d.

  14. Pareto skirstinys ir Pareto savybė Pareto a. d. yra aprašomas skirstiniu: A.d. pasižymi Pareto savybe, jei Skirstinys turi sunkią uodegą, jei α<2

  15. Atsitiktiniai vektoriai Atsitiktinio vektoriaus skirstinys: aprašomas daugiamačiu skirstiniu

  16. Atsitiktiniai vektoriai Atsitiktinis vektorius gali būti apibūdinamas vidurkių vektoriumi (tikėtinų reikšmių): ir kovariacijų matrica: , čia ,

  17. Atsitiktiniai vektoriai Sąryšiai tarp kintamųjų (komponenčių) aprašomi koreliacijomis:

  18. Aprašomoji statistika(AS) AS leidžia apžvelgti duomenis ir teikia pagrindą gilesniam tyrimui. AS sudaro : • Pozicinės statistikos • Momentų statistikos

  19. Aprašomoji statistika Tegul duota atsitiktinė imtis: - Imties tūris

  20. Variacinė eilutė Imtis užrašyta didėjančia tvarka vadinama variacine eilute variacinės eilutės nariai vadinami pozicinėmis Statistikomis. Variacine eilute pasinaudojama vaizduojant histogramas, tikrinant hipotezes apie duomenų Skirstinius ir pan.

  21. Empirinis skirstinys

  22. Momentųstatistikos imties vidurkis imties dispersija Trečias momentas Ketvirtas momentas

  23. Momentų statistikos Variacijos koeficientas Asimetrijos koeficientas kurtosis

  24. Robastinės duomenų analizės problemos Praktiniai duomenys dažnai pasižymi pliūpsniškumu, sunkiomis uodegomis, pvz: • finansinių rinkų indeksai; • informaciniai srautai kompiuterių tinkluose

  25. Robastinės duomenų analyzės problemos Duomenys taip pat gali būti asimetriniai, leptokurtotiniai (daug mažų ir daug didelių reikšmių). Robastinė duomenų analizė (nuo Huber, 1964) tiria metodus, kurie lieka stabilus esant “sunkioms uodegoms”, asimetrijai, ir/arba leptokurtotiškumui.

  26. Heavy-Tailed - Power Law where 0 < α < 2 and C > 0 are constants

  27. Duomenų asimetrija (skewness)

  28. Duomenų leptokurtotiškumas

  29. Praktiniai patarimai robastinei DA • Palyginti momentų statistikas su pozicinėmis statistikomis • Pritaikyti adekvačiua skirstinius (alfa-stable or Student distributions instead normal one) • Tirti inžinerines prielaidas apie duomenų prigimtį (pliūpsniškumas, , etc.)

  30. Praktiniai patarimai robustinei DA T.y., palyginkite imties vidurkį su mediana , Ir standartinį nuokrypį su absolučiu nuokrypiu . Jei skirtumų yra, reikalinga robustinė DA.

  31. Praktiniai patarimai robustinei DA Daugiamatėje analyzėje palyginti Pirsono Koreliacijos koeficienta su Spirmeno koefficientu (kuris skaičiuojamas kaip Pirsono koreliacija tarp atsitiktinių vektorių rangų). Jei skirtumų yra, gilesnė analizė reikalinga, taip pat

  32. Statistinis vertinimas Tarkime, reikia rasti skitrstinio su tankiu parametrus. Didžiausio tikėtinumo metodas leidžia rasti gerus parametrų įverčius:

  33. The science should be done by young !!!

More Related