Paskaita 3 tikimybinio modeliavimo ir r obastin s duomen gavybos principai
This presentation is the property of its rightful owner.
Sponsored Links
1 / 33

Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai PowerPoint PPT Presentation


  • 108 Views
  • Uploaded on
  • Presentation posted in: General

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <[email protected]>. Atsitiktiniai dydžiai ir skirstiniai.

Download Presentation

Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Paskaita 3 tikimybinio modeliavimo ir r obastin s duomen gavybos principai

DUOMENŲ GAVYBOS TECHNOLOGIJOS

Paskaita 3.Tikimybinio modeliavimo ir robastinės duomenų gavybos principai

Leonidas Sakalauskas

VGTU ITK, VU MII

t. -85 2109323, <[email protected]>


Atsitiktiniai dyd iai ir skirstiniai

Atsitiktiniai dydžiai ir skirstiniai

Skaitinės reikšmės,siejamos su atsitiktiniais įvykiais, yra vadinamos atsitiktiniais dydžiais (a.d.).

Atsitiktinis dydis yra atsitiktinio įvykio funkcija.

Atsitiktinį dydį X apibūdina jo galimų reikšmių aibė ir skirstinys.

Atstiktinio dydžio galimų reikšmių aibę sudaro visos skaitinės reikšmės, kurias jis gali įgyti su nenuline tikimybe.


Atsitiktiniai dyd iai ir skirstiniai1

Atsitiktiniai dydžiai ir skirstiniai

Skirstinys yra funkcija, lygi tikimybei, kad atsitiktinio dydis X neviršyja reikšmės x:

Taikomosiuose modeliuose dažniausiai pasitaiko diskretieji ir tolydieji a. d.

Atsitiktinis dydis yra diskretusis, jeigu jo galimų reikšmių aibė baigtinė arba skaiti.

Atsitiktinis dydis X vadinamas tolydžiuoju, jeigu jo galimų reikšmių aibė yra realiųjų skaičių intervalas arba tokių intervalų sąjunga.


Atsitiktiniai dyd iai ir skirstiniai2

Atsitiktiniai dydžiai ir skirstiniai

Svarbio a.d. charakteristikos yra vidurkis (tikėtina reikšmė):

ir dispersija:

vadinama standartiniu nuokrypiu


Dis k ret i e ji dyd iai

Diskretieji dydžiai

Discretusis a.d. aprašomas įgyjanų reikšmių tikimybėmis:


Dis k ret i e ji dyd iai1

Diskretieji dydžiai

Diskrečiojo a.d. vidurkis yra išreiškiamas suma:


Tolydieji a d

Tolydieji a.d.

Tolydusis a.d. yra nusakomas tikimybe tankio funkcija:

Tokiu būdu:


Tolydieji a d1

Tolydieji a.d.

Lygties

vadinamas a.d. p-kvantiliu


T o lydieji a d

Tolydieji a.d.

Atsitiktinės funkcijos vidurkis:


Normal usis skirstinys

Normalusis skirstinys

Tolydusis a.d. Yyra pasiskirstęs normaliai

(arba pagal Gauso dėsnį), paprastai

Žymimą N(μ, σ2), jei jo tankio funkcija

(μ – vidurkis, σ – st. nuokrypis):


Normal usis skirstinys1

Normalusis skirstinys

Jei labai daug nepriklausomų atsitiktinių poveikių įtakoja kokį-nors parametrą, tai jo skirstinys būtinai yra normalusis.

Tad normalusis ir su juo susiję skirstiniai dažnai taikomi tikimybiniam modeliavimui ir duomenų analizei.


E ks ponenti niai a d

Eksponentiniai a.d.

Eksponentinio a.d. skirstinys ir tankio

funkcija: (λ - intensyvumas):


Exponenti nis a d

Exponentinis a.d.

Laiko trukmė tarp dviejų atsitiktinių įvykių dažnai pasiskirsčiusi pagal šį dėsnį, pvz., draudiminiai įvykiai, fiksuoto ryšio telefono skambučiai, ir pan.

Kai trukmė tarp įvykių pasiskirsčiusi pagal eksponentinį dėsnį, įvykių skaičius intervale galima apskaičiuoti pagal Puasono dėsnį.

Patikimumo uždaviniuose dažnai taikomi Gama ir Veibulo a.d., susiję su eksponentiniu a.d.


Pareto skirstinys ir pareto savyb

Pareto skirstinys ir Pareto savybė

Pareto a. d. yra aprašomas skirstiniu:

A.d. pasižymi Pareto savybe, jei

Skirstinys turi sunkią uodegą, jei α<2


Atsitiktiniai vektoriai

Atsitiktiniai vektoriai

Atsitiktinio vektoriaus skirstinys:

aprašomas daugiamačiu skirstiniu


Atsitiktiniai ve k tor iai

Atsitiktiniai vektoriai

Atsitiktinis vektorius gali būti apibūdinamas vidurkių vektoriumi (tikėtinų reikšmių):

ir kovariacijų matrica: ,

čia

,


Atsitiktiniai vektoriai1

Atsitiktiniai vektoriai

Sąryšiai tarp kintamųjų (komponenčių)

aprašomi koreliacijomis:


Apra omoji statistika as

Aprašomoji statistika(AS)

AS leidžia apžvelgti duomenis ir teikia pagrindą gilesniam tyrimui.

AS sudaro :

  • Pozicinės statistikos

  • Momentų statistikos


Apra omoji statisti ka

Aprašomoji statistika

Tegul duota atsitiktinė imtis:

- Imties tūris


Varia ci n eilut

Variacinė eilutė

Imtis užrašyta didėjančia tvarka vadinama variacine eilute

variacinės eilutės nariai vadinami pozicinėmis

Statistikomis.

Variacine eilute pasinaudojama vaizduojant

histogramas, tikrinant hipotezes apie duomenų

Skirstinius ir pan.


Empiri nis skirstinys

Empirinis skirstinys


Moment s tatisti ko s

Momentųstatistikos

imties vidurkis

imties dispersija

Trečias momentas

Ketvirtas momentas


Moment s tatisti ko s1

Momentų statistikos

Variacijos koeficientas

Asimetrijos koeficientas

kurtosis


R ob a st in s duomen anal iz s problemos

Robastinės duomenų analizės problemos

Praktiniai duomenys dažnai pasižymi pliūpsniškumu, sunkiomis uodegomis, pvz:

  • finansinių rinkų indeksai;

  • informaciniai srautai kompiuterių tinkluose


R ob a st in s duomen analy z s problemos

Robastinės duomenų analyzės problemos

Duomenys taip pat gali būti asimetriniai, leptokurtotiniai (daug mažų ir daug didelių reikšmių).

Robastinė duomenų analizė (nuo Huber, 1964) tiria metodus, kurie lieka stabilus esant “sunkioms uodegoms”, asimetrijai, ir/arba leptokurtotiškumui.


Heavy tailed power law

Heavy-Tailed - Power Law

where 0 < α < 2 and C > 0 are constants


D uomen a s i metr ija skewness

Duomenų asimetrija (skewness)


D uomen leptokurto ti kumas

Duomenų leptokurtotiškumas


Pra k ti niai patarimai rob a st inei da

Praktiniai patarimai robastinei DA

  • Palyginti momentų statistikas su pozicinėmis statistikomis

  • Pritaikyti adekvačiua skirstinius (alfa-stable or Student distributions instead normal one)

  • Tirti inžinerines prielaidas apie duomenų prigimtį (pliūpsniškumas, , etc.)


Pra k ti niai patarimai robust inei da

Praktiniai patarimai robustinei DA

T.y., palyginkite imties vidurkį su mediana ,

Ir standartinį nuokrypį su

absolučiu nuokrypiu .

Jei skirtumų yra, reikalinga robustinė DA.


Pra k ti niai patarimai robust inei da1

Praktiniai patarimai robustinei DA

Daugiamatėje analyzėje palyginti Pirsono

Koreliacijos koeficienta

su Spirmeno koefficientu

(kuris skaičiuojamas kaip Pirsono koreliacija tarp atsitiktinių vektorių rangų).

Jei skirtumų yra, gilesnė analizė reikalinga, taip pat


Statisti nis vertinimas

Statistinis vertinimas

Tarkime, reikia rasti skitrstinio su tankiu

parametrus.

Didžiausio tikėtinumo metodas leidžia rasti gerus parametrų įverčius:


Paskaita 3 tikimybinio modeliavimo ir r obastin s duomen gavybos principai

The science

should be done

by young !!!


  • Login