1 / 29

O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

REGRESIJA IN KORELACIJA. Enostavna linearna regresija. O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti.

Download Presentation

O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. REGRESIJA IN KORELACIJA Enostavna linearna regresija O regresiji govorimo, kadar sta dva ali več pojavov (veličin) v medsebojni odvisnosti Regresija je enostavna kadar nastopata v medsebojni odvisnosti samo dva pojava (veličini), kadar pa nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji Naloga regresije je, poiskati tako funkcijo ki najbolje podaja medsebojno odvisnost pojavov.

  2. Odvisnost je enostranska , kadar je veličina X vzrok, veličina Y pa posledica. Odvisnost je dvostranskaXY, kadar ni možno določiti, kaj je vzrok in kaj posledica. Količini X in Y slučajni spremenljivki, zato njunih vrednosti vnaprej natanko ne moremo predvideti Lahko zapišemo le zvezo: Predpostavljamo, da je normalna slučajna spremenljivka

  3. Velja Slučajno spremenljivko imenujemo napaka modela Model je regresijski model. Če iščemo odvisnost v obliki linearne funkcije govorimo o linearni regresiji  Parametra in imenujemo regresijska koeficienta Pri realnih problemih regresije je seveda vprašanje, kako oceniti parametra ain b

  4. Naj bodo vrednosti statističnega znaka zaradi učinkov pojava X na enote slučajno izbranega vzorca velikosti n in vrednosti statisičnega znaka istih enot zaradi učinkov pojava Y. Na ta dva vzorca lahko gledamo tudi kot na množico urejenih parov Kako poiskati premico, ki se tem točkam najbolje prilega. Nalogo največkrat rešujemo z metodo najmanjših kvadratov S to metodo poiščemo oceni za regresijska parametra, ki ju bomo označili z in

  5. Metoda najmanjših kvadratov izbere parametra da je vsota kvadratov napak modela najmanjša To zahtevo lahko zapišemo

  6. Rešitev tega ekstrema nas pripelje do ocen in

  7. Vpeljimo naslednje oznake

  8. S temi oznakami lahko zapišemo oceno Zaradi enakosti velja

  9. Nepristransko oceno napake regresijskega modela imenujemo tudi standardna ocena napake modela in jo bomo označevali z ali v skrajšani obliki

  10. Vrednost je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti Vrednost je realizacija t slučajne spremenljivke z n – 2 stopnjami prostosti. Na statistiki t je zasnovan tudi test hipoteze o regresijskih koeficientih a in b

  11. Pri dani stopnji zaupanja je interval zaupanja za regresijska koeficienta ain b

  12. interval zaupanja za vrednost ki jo ocenjujemo z regresijsko premico pri dani vrednosti je

  13. Varianco količine Y imenujemo skupna ali začetna varianca Njena točkasta ocena, izračunana je pri izbranem vzorcu krajše zapisano

  14. Varianco napake regresijskega modela ocenimo z izrazom kar lahko zapišemo tudi takole Varianci napake modela pravimo tudi nepojasnjena varianca, njen kvadratni koren pa smo imenovali standardna ocena napake modela

  15. Razliko med začetno in nepojasnjeno varianco imenujemo pojasnjena varianca.

  16. Koeficient določenosti Analiza linearne korelacije proučuje, kako dobro izbrana regresijska premica povezuje količini (pojava) X in Y. Koeficient določenosti (determinacijski koeficient) D, ki meri linearno povezavo med vzrokom X in posledico Y, določeno z regresijsko premico, je

  17. 1. D = 1: med količino X in količino Y obstaja popolna matematična povezava v obliki linearne funkcije (napaka  v modelu je 0) 2. D = 0: med količinama X in Y ni nobene linearne odvisnosti 3. 0 < D <1: med X in Y obstaja verjetna linearna povezava.

  18. Proučujemo dvostransko odvisna pojava Zanima nas, kako močno sta linearno odvisna Koeficient korelacije, pravimo mu tudi Pearsonov koeficient korelacije, meri linearno odvisnost med dvostransko odvisnima pojavoma Točkovno oceno r zapišemo tudi na naslednji način ali

  19. Za cenilkoR koeficienta korelacije, velja, da je statistika približno normalna slučajna spremenljivka Njeno matematično upanje je in varianca

  20. Tako je vrednost standardizirane normalne slučajne spremenljivke Z. Na tej statistiki lahko zgradimo tudi interval zaupanja za parametr

  21. Statistiko Z uporabimo za test hipoteze pri ustrezni nasprotni hipotezi

  22. Večkratna regresija Kadar nastopa v medsebojni odvisnosti več pojavov, govorimo o večkratni ali multipli regresiji. Uporabljamo model v obliki linearne funkcije je napaka modela in je normalna slučajna spremenljivka z Zaradi tega velja

  23. Vzemimo, da imamo za vsako od neodvisnih spremenljivk in odvisno spremenljivko podanih n vzorčnih podatkov

  24. Ocene parametrov lahko dobimo z metodo najmanjših kvadratov Bolj enostavno pa jih dobimo, če uporabimo matrični račun. Vpeljimo oznake:

  25. Matrika ocen koeficientov večkratne regresije je Nepristransko oceno napake modela, pravimo ji tudi standardna ocena napake modela, v matrični obliki izrazimo takole: nje velikost vzorca, k pa število ocenjenih parametrov

  26. Če je napaka regresijskega modela normalna slučajna spremenljivka, potem je za i = 0,1,2,…,k vrednost t slučajne spremenljivke z n-k-1 stopnjami prostosti Pri tem je element v i-ti vrstici in i-tem stolpcu inverzne matrike S to statistiko testiramo tudi koeficiente linearne regresije, kjer se ničelna hipoteza nanaša na njihove predpostavljene vrednosti

  27. interval zaupanja za koeficiente regresijske hiperravnine je za i = 0,1,2,…,k

  28. Če je izbrana vrednost neodvisnih spremenljivk, napovedano vrednost dobimo Meji intervala zaupanja za napovedano vrednost odvisne spremenljivke sta

  29. Začetna varianca je Nepojasnjena variancaje Koeficient določenosti pa je

More Related