Paskaita 3 tikimybinio modeliavimo ir r obastin s duomen gavybos principai
Sponsored Links
This presentation is the property of its rightful owner.
1 / 33

Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai PowerPoint PPT Presentation


  • 132 Views
  • Uploaded on
  • Presentation posted in: General

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai. Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <sakal@ktl.mii.lt>. Atsitiktiniai dydžiai ir skirstiniai.

Download Presentation

Paskaita 3. Tikimybinio modeliavimo ir r obastin ės duomenų gavybos principai

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


DUOMENŲ GAVYBOS TECHNOLOGIJOS

Paskaita 3.Tikimybinio modeliavimo ir robastinės duomenų gavybos principai

Leonidas Sakalauskas

VGTU ITK, VU MII

t. -85 2109323, <sakal@ktl.mii.lt>


Atsitiktiniai dydžiai ir skirstiniai

Skaitinės reikšmės,siejamos su atsitiktiniais įvykiais, yra vadinamos atsitiktiniais dydžiais (a.d.).

Atsitiktinis dydis yra atsitiktinio įvykio funkcija.

Atsitiktinį dydį X apibūdina jo galimų reikšmių aibė ir skirstinys.

Atstiktinio dydžio galimų reikšmių aibę sudaro visos skaitinės reikšmės, kurias jis gali įgyti su nenuline tikimybe.


Atsitiktiniai dydžiai ir skirstiniai

Skirstinys yra funkcija, lygi tikimybei, kad atsitiktinio dydis X neviršyja reikšmės x:

Taikomosiuose modeliuose dažniausiai pasitaiko diskretieji ir tolydieji a. d.

Atsitiktinis dydis yra diskretusis, jeigu jo galimų reikšmių aibė baigtinė arba skaiti.

Atsitiktinis dydis X vadinamas tolydžiuoju, jeigu jo galimų reikšmių aibė yra realiųjų skaičių intervalas arba tokių intervalų sąjunga.


Atsitiktiniai dydžiai ir skirstiniai

Svarbio a.d. charakteristikos yra vidurkis (tikėtina reikšmė):

ir dispersija:

vadinama standartiniu nuokrypiu


Diskretieji dydžiai

Discretusis a.d. aprašomas įgyjanų reikšmių tikimybėmis:


Diskretieji dydžiai

Diskrečiojo a.d. vidurkis yra išreiškiamas suma:


Tolydieji a.d.

Tolydusis a.d. yra nusakomas tikimybe tankio funkcija:

Tokiu būdu:


Tolydieji a.d.

Lygties

vadinamas a.d. p-kvantiliu


Tolydieji a.d.

Atsitiktinės funkcijos vidurkis:


Normalusis skirstinys

Tolydusis a.d. Yyra pasiskirstęs normaliai

(arba pagal Gauso dėsnį), paprastai

Žymimą N(μ, σ2), jei jo tankio funkcija

(μ – vidurkis, σ – st. nuokrypis):


Normalusis skirstinys

Jei labai daug nepriklausomų atsitiktinių poveikių įtakoja kokį-nors parametrą, tai jo skirstinys būtinai yra normalusis.

Tad normalusis ir su juo susiję skirstiniai dažnai taikomi tikimybiniam modeliavimui ir duomenų analizei.


Eksponentiniai a.d.

Eksponentinio a.d. skirstinys ir tankio

funkcija: (λ - intensyvumas):


Exponentinis a.d.

Laiko trukmė tarp dviejų atsitiktinių įvykių dažnai pasiskirsčiusi pagal šį dėsnį, pvz., draudiminiai įvykiai, fiksuoto ryšio telefono skambučiai, ir pan.

Kai trukmė tarp įvykių pasiskirsčiusi pagal eksponentinį dėsnį, įvykių skaičius intervale galima apskaičiuoti pagal Puasono dėsnį.

Patikimumo uždaviniuose dažnai taikomi Gama ir Veibulo a.d., susiję su eksponentiniu a.d.


Pareto skirstinys ir Pareto savybė

Pareto a. d. yra aprašomas skirstiniu:

A.d. pasižymi Pareto savybe, jei

Skirstinys turi sunkią uodegą, jei α<2


Atsitiktiniai vektoriai

Atsitiktinio vektoriaus skirstinys:

aprašomas daugiamačiu skirstiniu


Atsitiktiniai vektoriai

Atsitiktinis vektorius gali būti apibūdinamas vidurkių vektoriumi (tikėtinų reikšmių):

ir kovariacijų matrica: ,

čia

,


Atsitiktiniai vektoriai

Sąryšiai tarp kintamųjų (komponenčių)

aprašomi koreliacijomis:


Aprašomoji statistika(AS)

AS leidžia apžvelgti duomenis ir teikia pagrindą gilesniam tyrimui.

AS sudaro :

  • Pozicinės statistikos

  • Momentų statistikos


Aprašomoji statistika

Tegul duota atsitiktinė imtis:

- Imties tūris


Variacinė eilutė

Imtis užrašyta didėjančia tvarka vadinama variacine eilute

variacinės eilutės nariai vadinami pozicinėmis

Statistikomis.

Variacine eilute pasinaudojama vaizduojant

histogramas, tikrinant hipotezes apie duomenų

Skirstinius ir pan.


Empirinis skirstinys


Momentųstatistikos

imties vidurkis

imties dispersija

Trečias momentas

Ketvirtas momentas


Momentų statistikos

Variacijos koeficientas

Asimetrijos koeficientas

kurtosis


Robastinės duomenų analizės problemos

Praktiniai duomenys dažnai pasižymi pliūpsniškumu, sunkiomis uodegomis, pvz:

  • finansinių rinkų indeksai;

  • informaciniai srautai kompiuterių tinkluose


Robastinės duomenų analyzės problemos

Duomenys taip pat gali būti asimetriniai, leptokurtotiniai (daug mažų ir daug didelių reikšmių).

Robastinė duomenų analizė (nuo Huber, 1964) tiria metodus, kurie lieka stabilus esant “sunkioms uodegoms”, asimetrijai, ir/arba leptokurtotiškumui.


Heavy-Tailed - Power Law

where 0 < α < 2 and C > 0 are constants


Duomenų asimetrija (skewness)


Duomenų leptokurtotiškumas


Praktiniai patarimai robastinei DA

  • Palyginti momentų statistikas su pozicinėmis statistikomis

  • Pritaikyti adekvačiua skirstinius (alfa-stable or Student distributions instead normal one)

  • Tirti inžinerines prielaidas apie duomenų prigimtį (pliūpsniškumas, , etc.)


Praktiniai patarimai robustinei DA

T.y., palyginkite imties vidurkį su mediana ,

Ir standartinį nuokrypį su

absolučiu nuokrypiu .

Jei skirtumų yra, reikalinga robustinė DA.


Praktiniai patarimai robustinei DA

Daugiamatėje analyzėje palyginti Pirsono

Koreliacijos koeficienta

su Spirmeno koefficientu

(kuris skaičiuojamas kaip Pirsono koreliacija tarp atsitiktinių vektorių rangų).

Jei skirtumų yra, gilesnė analizė reikalinga, taip pat


Statistinis vertinimas

Tarkime, reikia rasti skitrstinio su tankiu

parametrus.

Didžiausio tikėtinumo metodas leidžia rasti gerus parametrų įverčius:


The science

should be done

by young !!!


  • Login