Regresn a korela n anal za
Download
1 / 45

- PowerPoint PPT Presentation


  • 168 Views
  • Uploaded on

REGRESNÁ A KORELAČNÁ ANALÝZA. PREDNÁŠKA 8. analýza závislostí medzi kvantitatívnymi znakmi regresná analýza jednoduchá lineárna závislosť regresný model MNŠ jednoduchá nelineárna závislosť viacnásobná lineárna závislosť korelačná analýza miery tesnosti závislosti. Závislá premenná.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - salvador-perkins


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Regresn a korela n anal za

REGRESNÁ A KORELAČNÁ ANALÝZA


Predn ka 8
PREDNÁŠKA 8

  • analýza závislostí medzi kvantitatívnymi znakmi

    • regresná analýza

      • jednoduchá lineárna závislosť

        • regresný model

        • MNŠ

      • jednoduchá nelineárna závislosť

      • viacnásobná lineárna závislosť

    • korelačná analýza

      • miery tesnosti závislosti


Regresn a korela n anal za

Závislápremenná

kvantitatívna

RaKA

Nezávislápremenná

kvantitatívna

kvantitatívna

kvantitatívna

Úvod


Regresn a korela n anal za

cm

kg

Úvod

  • Štatistická analýza závislostí

    • skúmanie vzájomných vzťahov a závislostí medzi jednotlivými hromadnými javmi

    • hromadné javy neexistujú oddelene

      • každý jav je výsledkom spolupôsobenia iných javov

      • charakter a významnosť pôsobenia môžu byť rôzne

    • predmetom skúmania sú príčinné (kauzálne) závislosti

      • jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok)


Regresn a korela n anal za
Úvod

  • Typy závislostí

    • príčinné

      • ak jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov (účinok)

        • jednostranné - účinok nepôsobí spätne na príčinu

        • obojstranné- účinok a príčina na seba trvalé vzájomne pôsobia

    • združené

      • nie sú to príčinné závislosti

        • určitej hodnote, obmene jedného javu spravidla zodpovedá určitá hodnota, obmena iného javu

        • dĺžka ramien – výška jednotlivca

    • zdanlivé

      • vzťah medzi určitými javmi nie je dôsledkom ich vzájomnej príčinnej súvislosti

        • je výsledkom pôsobenia ďalšieho javu alebo javov

        • napr. výdavky na ovocie a výdavky na obuv


Opakom tatistickej z vislosti je funk n z vislos
Opakom štatistickej závislosti je funkčná závislosť

Y = f(X1 X2…...Xk ,Bo , B1 ,…., Bp)

kedy je závisle premenná veličina jednoznačne určená funkčným vzťahom,

príklady z fyziky, chémie - takýto druh vzťahov nie je predmetom štatistického skúmania


N stroje anal zy z vislost

1

2

vzťah možno popísať polynómom

vzťah možno popísať priamkou

4

3

medzi premennýmineexistuje jasný vzťah

vzťah možno popísať krivkou

Nástroje analýzy závislostí

  • Grafické - Bodový graf (XY graf)

    • Úvodné preskúmanie vzťahov medzi premennými pomocou bodového grafu

Presnú odpoveď poskytne výpočet štatistík RaKA


Bodov graf
Bodový graf

Bodový graf slúži na:

  • úvodné preskúmanie vzťahov medzi dvomi premennými

  • určenie extrémnych alebo typických hodnôt

  • určenie možného tvaru závislosti

  • porovnanie a prezentáciu výsledkov analýzy

    Bodové grafy nám vždy slúžia na získanie základnej predstavy. Každý analytik však v grafe môže vidieť niečo iné. Presné potvrdenie našich domnienok nám poskytnú až exaktné štatistické nástroje.


N stroje anal zy z vislost1

A

B

Nástroje analýzy závislostí

  • Štatistické – regresná a korelačná analýza

    • sa zaoberá kvantifikáciou závislostí medzi kvantitatívnymi znakmi

    • rieši dve úlohy

      • regresnú úlohu

        • popísanie priebehu tejto závislosti

        • odhad funkčného vzťahu - matematickej funkcie podľa, ktorej sa mení závisle premenná pri zmenách nezávisle premennej/premenných, t.j. výber funkcie a odhad jej parametrov

      • korelačnú úlohu

        • popísanie tesnosti závislostí

        • výpočet charakteristík určujúcich do akej miery uvažované nezávislé premenné vysvetľujú variabilitu závisle premennej


Regresn anal za
Regresná analýza

  • umožňuje popísať vzťah medzi dvoma alebo viacerými premennými

  • cieľ regresnej analýzy

    • odhadnúť funkčný vzťah medzi premennými

    • odhadnúť parametre regresnej funkcie

  • typy premenných v regresnej analýze

    • závislé premenné

      • označenie:Y

      • sú v centre pozornosti, pretože ich variabilitu sa snažíme vysvetliť

      • tzv. vysvetľované premenné

    • nezávislé premenné

      • označenie:X

      • sú premenné, ktoré používame na vysvetlenie zmien v hodnotách závislej premennej

      • predpokladáme, že ich hodnoty sa nemenia

      • tzv. vysvetľujúce premenné


  • Regresn anal za1
    Regresná analýza

    • typy regresnej analýzy podľa počtu premenných

      • jednoduchá regresia

        • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od jednej kvantitatívnej nezávisle premennej

      • viacnásobná regresia

        • ak popisujeme závislosť jednej kvantitatívnej závislej premennej od viacerých kvantitatívnych nezávislých premenných

  • typy regresnej analýzy podľa typu závislosti

    • lineárna regresia

      • ak popisujeme závislosť premenných pomocou priamky

    • nelineárna regresia

      • ak popisujeme závislosť premenných pomocou inej krivky ako priamka


  • Model jednoduchej line rnej regresie

    0 + 1X

    Závisle premenná

    1 jednotiek

    1 jednotka

    0

    Nezávisle premenná

    Model jednoduchej lineárnej regresie

    • Popis závislosti v ZS

      • rovnica modelu

        Y = 0 + 1X + e

      • kde

        Y je závisle premenná

        X je nezávisle premenná

        0 je parameter modelu

        tzv. lokujúca konštanta, ktorá vyjadruje akú hodnotu nadobudne premenná Y, ak premenná X bude mať hodnotu 0

        1 je parameter modelu

        tzv. regresný koeficient, ktorý vyjadruje sklon regresnej priamky.Udáva o koľko jednotiek sa v priemere zmení Y, ak sa X zmení o 1 jednotku, 1> pozitívna závislosť, 1< negatívna závislosť


    Model jednoduchej line rnej regresie1

    Výberový súbor

    Základný súbor

    závisle premenná

    závislá premenná

    Y´ = b0 + b1X

    nezávisle premenná

    nezávislá premenná

    Y = 0 + 1X + 

    Y = est (Y)b0 = est (0) b1 = est (1)

    Y = 0 + 1X

    Model jednoduchej lineárnej regresie

    • Odhad modelu


    Model jednoduchej line rnej regresie2

    2

    Závisle premenná

    Y – Y´

    ( Y – Y´ )

    = min

    Y´ = b0 + b1X

    Nezávisle premenná

    Model jednoduchej lineárnej regresie

    • Metóda najmenších štvorcov (MNŠ)

      • metóda odhadu parametrov regresnej modelu

      • odhad MNŠ minimalizuje sumu štvorcov reziduálnych odchýlok = rozdielov medzi skutočnou hodnotou a odhadnutou priamkou

      • priamka odhadnutá MNŠ je ku všetkým skutočným hodnotám tak blízko ako sa len dá


    Met da najmen ch tvorcov
    Metóda najmenších štvorcov

    • Predpoklady MNŠ

      • priemery Y pre jednotlivé hodnoty X možno spojiť priamkou

      • rozptyl premennej Y je konštantný - s2 pre všetky hodnoty X

      • premenná Y má normálne rozdelenie pre všetky hodnoty X

      • pozorovania Y sú navzájom nezávislé

      • pozorovania X sú nenáhodné, navzájom nezávislé a bez chýb v meraní


    Met da najmen ch tvorcov1
    Metóda najmenších štvorcov

    • Možno dokázať, že koeficienty bo , b1 , …, bpurčené MNŠ sú “najlepšie odhady” parametrov

      b0 , b1 , …, bp ak súčasne o náhodných chybách platí:

    E (ej ) = 0,

    D (ej ) = E (ej2 ) = 2 ,

    E(ej1 , ej2 ) = 0 , pre každéj1  j2

    • slovne:

      • od náhodných chýb požadujeme nulovú strednú hodnotu, konštantný rozptyl a vzájomnú nezávislosť náhodných chýb


    Vlastnosti mn
    Vlastnosti MNŠ

    • súčet štvorcov reziduálnych odchýlok je minimálny

    • súčet reziduálnych odchýlok je nulový

    • regresná funkcia prechádza bodom o súradniciach x a y


    Pou itie mn
    Použitie MNŠ

    • MNŠ je možné použiť k odhadu parametrov regresnej funkcie, ak:

      • je regresná funkcia lineárna

      • resp. lineárna v parametroch

      • je možné regresnú funkciu pretransformovať na lineárnu v parametroch


    Neline rna regresn a korela n anal za
    Nelineárna regresná a korelačná analýza

    • v praxi nielen lineárne funkcie, ale veľmi často má priebeh nelineárny priebeh

    • nelineárne funkcie je možné použiť s dvoma alebo viacerými parametrami

    • niektoré nelineárne regresné funkcie je možné vhodnou transformáciou upraviť na lineárne v parametroch

    • k odhadu ich parametrov je potom možné použiť metódou najmenších štvorcov.


    Neline rna regresn a korela n anal za1
    Nelineárna regresná a korelačná analýza

    • niektoré typy nelineárnych funkcií

    hyperbola

    logaritmická funkcia

    parabola

    exponenciálna funkcia

    mocninová funkcia


    Funkcia hyperboly
    Funkcia HYPERBOLY

    substitúcia


    Logaritmick funkcia
    LOGARITMICKÁ funkcia

    substitúcia


    Exponenci lna funkcia
    EXPONENCIÁLNA funkcia

    logaritmická transformácia

    • VÝSTUP:

      • ln b0 b0=EXP(lnb0)

      • ln b1 b0=EXP(lnb0)

    • VSTUP:

      • ln y

      • x


    Mocninov funkcia
    MOCNINOVÁ funkcia

    logaritmická transformácia

    • VÝSTUP:

      • ln b0 b0=EXP(lnb0)

      • b1

    • VSTUP:

      • ln y

      • ln x


    Korela n anal za
    Korelačná analýza

    • overenie vypovedacej schopnosti kvantifikovaných regresných modelov ako celku, aj jeho častí.

    • výpočet číselných charakteristík, ktoré v koncentrovanej forme popisujú kvalitu vypočítaných modelov.

    • požadujeme od nich, aby sa pohybovali v pevne ohraničenom intervale,

    • v rámci intervalu rástli s vyššou silou závislosti


    Korela n anal za1

    y

    y

    x

    x

    Korelačná analýza

    • porovnanie dvoch prípadov závislosti

    • Ktorá závislosť bude tesnejšia?


    Korela n anal za2
    Korelačná analýza

    • miery tesnosti štatistickej závislosti:

      • koeficient korelácie ryx

        • len pre lineárnu závislosť

      • koeficient determinácie ryx2

        • len pre lineárnu závislosť

      • index korelácie iyx

      • index determinácie iyx2


    Korela n anal za3
    Korelačná analýza

    • Index korelácie a index determinácie

    • princíp spočíva v rozklade variability závisle premennej Y

    Celková

    variabilita

    závisle

    premennej

    Variabilita nevysvetlená

    regresnou funkciou – reziduálna variabilita

    Variabilita závisle

    premennej vysvetlená

    regresnou funkciou


    Korela n anal za4
    Korelačná analýza

    • index korelácie iyx

    • index determinácia iyx2


    Korela n anal za5
    Korelačná analýza

    • index korelácie

      • hodnoty sa pohybujú v intervale od (0,1)

      • čím sa hodnota indexu blíži k 1, tým je tesnosť závislosti vyššia a opačne

    • index determinácie

      • nadobúda hodnoty z intervalu 0 až 1

      • čím viac sa hodnota indexu blíži k 1, tým väčšia časť celkovej variability je modelom vysvetlená a naopak

      • ak sa index determinácie blíži k 0, tým menšia časť celkovej variability je vysvetlená modelom


    Korela n anal za6
    Korelačná analýza

    • index determinácie

      • kritérium pri rozhodovaní o voľbe konkrétneho tvaru regresnej funkcie

      • volíme ten model,ktorý má vyšší koeficient determinácie (vyššie % vysvetlenej variability)

      • ak však majú regresné funkcie rôzny počet parametrov, je potrebné upraviť index determinácie do korigovanej podoby v tvare:

      • výrazný rozdiel medzi i2 a i2adj. indikuje, že do modelu bolo zahrnutých príliš veľa premenných


    Korela n anal za7
    Korelačná analýza

    • koeficient korelácie - ryx

    • hodnoty sa pohybujú v intervale: –1, 1

      • ryx=-1 – silná negatívna závislosť

      • ryx=0 – bez závislosti

      • ryx=1 – silná pozitívna závislosť

    • koeficient determinácie ryx2

    • hodnoty sa pohybujú v intervale: 0,1

    • udáva % vysvetlenej variability závisle premennej


    Overenie kvality modelu
    Overenie kvality modelu

    • Testovanie významnosti modelu ako celku

      • na základe rozkladu variability

        • celková variabilita

          • na koľko sa odchyľujú konkrétne hodnoty premennej Y od celkového priemeru

        • vysvetlená variabilita

          • na koľko sa odchyľujú hodnoty na regresnej priamky od celkového priemeru

        • nevysvetlená variabilita

          • na koľko sa odchyľujú skutočné hodnoty premennej Y od hodnôt odhadnutých regresnou priamkou

      • čím väčšia je vysvetlená variabilita v porovnaní s nevysvetlenou variabilitou, tým lepšie odhadnutápriamka modeluje závislosť premenných


    Overenie kvality modelu1

    priemerná suma štvorcov modelu

    priemerná reziduálna sumaštvorcov

    = F

    Overenie kvality modelu

    • Testovanie významnosti modelu ako celku

      • Hypotézy: H0: model ako celok nie je významný

        H1: model ako celok je významný

      • Testovacia charakteristika

        • porovnáva variabilitu vysvetlenú modelom a variabilitu nevysvetlenú modelom

          • čím väčšia je variabilita vysvetlená modelom, tým lepšie model vystihuje závislosť medzi závislou a nezávislou premennou

    vysvetlenávariabilita

    suma štvorcovmodelu

    reziduálna suma štvorcov

    nevysvetlenávariabilita

    celková suma štvorcov

    celková variabilita


    Overenie kvality modelu2

    Nevysvetlenávariabilita

    Závisle premenná

    Vysvetlenávariabilita

    Celkovávariabilita

    _

    Y

    Y´ = b0 + b1X

    Nezávisle premenná

    Overenie kvality modelu

    • Testovanie významnosti modelu ako celku

      • pomocou rozkladu variability modelu


    Overenie kvality modelu3
    Overenie kvality modelu

    • ANOVA – analýza rozptylu, ktorá sa využíva na verifikáciu vypovedacej schopnosti modelu


    Overenie kvality modelu4
    Overenie kvality modelu

    • testovacie kritérium v tabuľke je možné využiť k súčasnému testovaniu významnosti celého regresného modelu, indexu determinácie aj indexu korelácie

    • vypočítanú hodnotu F testu porovnávame s tabuľkovou F hodnotou (Fischerove rozdelenie) pri (p-1) a (n – p) stupňov voľnosti

    • ak F < Ftab považujeme regresný model za nevýznamný, podobne aj index determinácie a index korelácie

    • ak F > Ftab považujeme regresný model za štatisticky významný, podobne aj index determinácie a index korelácie


    Test v znamnosti parametrov rf
    Test významnosti parametrov RF

    • Testovanie významnosti parametrov modelu

    H0: parametre regresnej funkcie sú štatisticky nevýznamné

    b0 = 0b1 = 0

    H1: parametre regresnej funkcie sú štatisticky významné

    b0 0b1 0

    Záver:

    p hodnota >  platí H0parametre nie sú štatisticky významnép hodnota <  platí H!parametre sú štatisticky významné

    Testovacia charakteristika:

    t = b0/s(b0)

    t = b1/s(b1)


    Intervaly spo ahlivosti pre parametre rf
    Intervaly spoľahlivosti pre parametre RF

    Intervalový odhad ľubovoľného parametra pre regresnú priamku

    vychádza z toho, že za predpokladov formulovaných klasickým lineárnym modelom má veličina

    trozdelenie s n – p stupňami voľnosti. Pri zvolenej spoľahlivosti 1 – a

    je obojstranný interval spoľahlivosti pre parameterb0

    daný vzťahom



    Viacn sobn line rna regresia
    Viacnásobná lineárna regresia

    • Model s dvoma nezávislými premennými

      • rozšírime najskôr model jednoduchej regresie o ďalšiu vysvetľujúcu premennú

      • model lineárnej regresie s dvoma vysvetľujúcimi premennými

        Y = 0 + 1X1 + 2X2 + e

        kde

        Y je závislá premenná

        X1 a X2 sú nezávislé, vysvetľujúce premenné

        e je náhodná zložka

        0, 1, a 2 sú neznáme parametre modelu


    Viacn sobn line rna regresia1
    Viacnásobná lineárna regresia

    • Všeobecný model viacnásobnej regresie

      • modeluje závislosť vysvetľovanej premennej ako výsledok jej lineárnej závislosti od k nezávislých premenných

      • Y = 0 + 1X1 + … + kXk + e

        • model vyjadruje vzťah medzi k premennými

        • na jeho grafickú prezentáciu by sme potrebovali k-rozmerný priestor

        • model má p=k+1 parametrov

          • k - regresných koeficientov

          • lokujúcu konštantu 0