Paskaita 3 tikimybinio modeliavimo ir r obastin s duomen gavybos principai
Download
1 / 33

Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai - PowerPoint PPT Presentation


  • 196 Views
  • Uploaded on

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <[email protected]>. Atsitiktiniai dydžiai ir skirstiniai.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai ' - feoras


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Paskaita 3 tikimybinio modeliavimo ir r obastin s duomen gavybos principai

DUOMENŲ GAVYBOS TECHNOLOGIJOS

Paskaita 3.Tikimybinio modeliavimo ir robastinės duomenų gavybos principai

Leonidas Sakalauskas

VGTU ITK, VU MII

t. -85 2109323, <[email protected]>


Atsitiktiniai dyd iai ir skirstiniai
Atsitiktiniai dydžiai ir skirstiniai

Skaitinės reikšmės,siejamos su atsitiktiniais įvykiais, yra vadinamos atsitiktiniais dydžiais (a.d.).

Atsitiktinis dydis yra atsitiktinio įvykio funkcija.

Atsitiktinį dydį X apibūdina jo galimų reikšmių aibė ir skirstinys.

Atstiktinio dydžio galimų reikšmių aibę sudaro visos skaitinės reikšmės, kurias jis gali įgyti su nenuline tikimybe.


Atsitiktiniai dyd iai ir skirstiniai1
Atsitiktiniai dydžiai ir skirstiniai

Skirstinys yra funkcija, lygi tikimybei, kad atsitiktinio dydis X neviršyja reikšmės x:

Taikomosiuose modeliuose dažniausiai pasitaiko diskretieji ir tolydieji a. d.

Atsitiktinis dydis yra diskretusis, jeigu jo galimų reikšmių aibė baigtinė arba skaiti.

Atsitiktinis dydis X vadinamas tolydžiuoju, jeigu jo galimų reikšmių aibė yra realiųjų skaičių intervalas arba tokių intervalų sąjunga.


Atsitiktiniai dyd iai ir skirstiniai2
Atsitiktiniai dydžiai ir skirstiniai

Svarbio a.d. charakteristikos yra vidurkis (tikėtina reikšmė):

ir dispersija:

vadinama standartiniu nuokrypiu


Dis k ret i e ji dyd iai
Diskretieji dydžiai

Discretusis a.d. aprašomas įgyjanų reikšmių tikimybėmis:


Dis k ret i e ji dyd iai1
Diskretieji dydžiai

Diskrečiojo a.d. vidurkis yra išreiškiamas suma:


Tolydieji a d
Tolydieji a.d.

Tolydusis a.d. yra nusakomas tikimybe tankio funkcija:

Tokiu būdu:


Tolydieji a d1
Tolydieji a.d.

Lygties

vadinamas a.d. p-kvantiliu


T o lydieji a d
Tolydieji a.d.

Atsitiktinės funkcijos vidurkis:


Normal usis skirstinys
Normalusis skirstinys

Tolydusis a.d. Yyra pasiskirstęs normaliai

(arba pagal Gauso dėsnį), paprastai

Žymimą N(μ, σ2), jei jo tankio funkcija

(μ – vidurkis, σ – st. nuokrypis):


Normal usis skirstinys1
Normalusis skirstinys

Jei labai daug nepriklausomų atsitiktinių poveikių įtakoja kokį-nors parametrą, tai jo skirstinys būtinai yra normalusis.

Tad normalusis ir su juo susiję skirstiniai dažnai taikomi tikimybiniam modeliavimui ir duomenų analizei.


E ks ponenti niai a d
Eksponentiniai a.d.

Eksponentinio a.d. skirstinys ir tankio

funkcija: (λ - intensyvumas):


Exponenti nis a d
Exponentinis a.d.

Laiko trukmė tarp dviejų atsitiktinių įvykių dažnai pasiskirsčiusi pagal šį dėsnį, pvz., draudiminiai įvykiai, fiksuoto ryšio telefono skambučiai, ir pan.

Kai trukmė tarp įvykių pasiskirsčiusi pagal eksponentinį dėsnį, įvykių skaičius intervale galima apskaičiuoti pagal Puasono dėsnį.

Patikimumo uždaviniuose dažnai taikomi Gama ir Veibulo a.d., susiję su eksponentiniu a.d.


Pareto skirstinys ir pareto savyb
Pareto skirstinys ir Pareto savybė

Pareto a. d. yra aprašomas skirstiniu:

A.d. pasižymi Pareto savybe, jei

Skirstinys turi sunkią uodegą, jei α<2


Atsitiktiniai vektoriai
Atsitiktiniai vektoriai

Atsitiktinio vektoriaus skirstinys:

aprašomas daugiamačiu skirstiniu


Atsitiktiniai ve k tor iai
Atsitiktiniai vektoriai

Atsitiktinis vektorius gali būti apibūdinamas vidurkių vektoriumi (tikėtinų reikšmių):

ir kovariacijų matrica: ,

čia

,


Atsitiktiniai vektoriai1
Atsitiktiniai vektoriai

Sąryšiai tarp kintamųjų (komponenčių)

aprašomi koreliacijomis:


Apra omoji statistika as
Aprašomoji statistika(AS)

AS leidžia apžvelgti duomenis ir teikia pagrindą gilesniam tyrimui.

AS sudaro :

  • Pozicinės statistikos

  • Momentų statistikos


Apra omoji statisti ka
Aprašomoji statistika

Tegul duota atsitiktinė imtis:

- Imties tūris


Varia ci n eilut
Variacinė eilutė

Imtis užrašyta didėjančia tvarka vadinama variacine eilute

variacinės eilutės nariai vadinami pozicinėmis

Statistikomis.

Variacine eilute pasinaudojama vaizduojant

histogramas, tikrinant hipotezes apie duomenų

Skirstinius ir pan.


Empiri nis skirstinys
Empirinis skirstinys


Moment s tatisti ko s
Momentųstatistikos

imties vidurkis

imties dispersija

Trečias momentas

Ketvirtas momentas


Moment s tatisti ko s1
Momentų statistikos

Variacijos koeficientas

Asimetrijos koeficientas

kurtosis


R ob a st in s duomen anal iz s problemos
Robastinės duomenų analizės problemos

Praktiniai duomenys dažnai pasižymi pliūpsniškumu, sunkiomis uodegomis, pvz:

  • finansinių rinkų indeksai;

  • informaciniai srautai kompiuterių tinkluose


R ob a st in s duomen analy z s problemos
Robastinės duomenų analyzės problemos

Duomenys taip pat gali būti asimetriniai, leptokurtotiniai (daug mažų ir daug didelių reikšmių).

Robastinė duomenų analizė (nuo Huber, 1964) tiria metodus, kurie lieka stabilus esant “sunkioms uodegoms”, asimetrijai, ir/arba leptokurtotiškumui.


Heavy tailed power law
Heavy-Tailed - Power Law

where 0 < α < 2 and C > 0 are constants


D uomen a s i metr ija skewness
Duomenų asimetrija (skewness)


D uomen leptokurto ti kumas
Duomenų leptokurtotiškumas


Pra k ti niai patarimai rob a st inei da
Praktiniai patarimai robastinei DA

  • Palyginti momentų statistikas su pozicinėmis statistikomis

  • Pritaikyti adekvačiua skirstinius (alfa-stable or Student distributions instead normal one)

  • Tirti inžinerines prielaidas apie duomenų prigimtį (pliūpsniškumas, , etc.)


Pra k ti niai patarimai robust inei da
Praktiniai patarimai robustinei DA

T.y., palyginkite imties vidurkį su mediana ,

Ir standartinį nuokrypį su

absolučiu nuokrypiu .

Jei skirtumų yra, reikalinga robustinė DA.


Pra k ti niai patarimai robust inei da1
Praktiniai patarimai robustinei DA

Daugiamatėje analyzėje palyginti Pirsono

Koreliacijos koeficienta

su Spirmeno koefficientu

(kuris skaičiuojamas kaip Pirsono koreliacija tarp atsitiktinių vektorių rangų).

Jei skirtumų yra, gilesnė analizė reikalinga, taip pat


Statisti nis vertinimas
Statistinis vertinimas

Tarkime, reikia rasti skitrstinio su tankiu

parametrus.

Didžiausio tikėtinumo metodas leidžia rasti gerus parametrų įverčius:


The science

should be done

by young !!!


ad