Metody analizy wsp zale no ci cech zmiennych
This presentation is the property of its rightful owner.
Sponsored Links
1 / 36

Metody analizy współzależności cech (zmiennych) PowerPoint PPT Presentation


  • 128 Views
  • Uploaded on
  • Presentation posted in: General

Metody analizy współzależności cech (zmiennych). Wykład 6 dr Małgorzata Radziukiewicz. Poszczególne jednostki populacji mogą być badane: ze względu na jedną cechę ; jednocześnie ze względu na dwie lub więcej cech . Przykład 1.

Download Presentation

Metody analizy współzależności cech (zmiennych)

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Metody analizy wspzalenoci cech (zmiennych)

Wykad 6

dr Magorzata Radziukiewicz


  • Poszczeglne jednostki populacji mog by badane:

    • ze wzgldu na jedn cech;

    • jednoczenie ze wzgldu na dwie lub wicej cech.

      Przykad 1.

      Gospodarstwa domowe mog by badane nie tylko ze wzgldu na wysoko miesicznych dochodw, lecz rwnie ze wzgldu na liczb osb w gospodarstwie, wiek gowy gospodarstwa, wysoko miesicznych wydatkw, liczb osb pracujcych, czy stosowany lek (wielko dawki) ma wpyw na stan zdrowia itp.


  • Inaczej mwic moemy bada populacj ze wzgldu na m cech. Wektor cech zapisujemy:

    x = [x1, x2,, xm]

    Przykad 2.

  • Studenci statystyki WSMiZ w Sochaczewie byli badani ze wzgldu na wag (x). Teraz mog by badani nie tylko ze wzgldu na wag (x1), lecz rwnie wedug wzrostu (x2), wieku (x3), pci (x4), charakteru studiw (dzienne, zaoczne) (x5) itp.


  • Poszczeglne cechy mog by:

    • od siebie odizolowane;

    • wzajemnie ze sob powizane.

  • Dzia statystyki zajmujcy si badaniem zwizkw midzy kilkoma cechami (zmiennymi) nosi nazw teorii wspzalenoci.


  • Wykrycie zalenoci midzy cechami nie jest atwe, nawet jeli ich wystpowanie wydaje si oczywiste.

    Przykad 3.

    - chocia dany lek jest bardzo dobry, to jednak nie dla kadej osoby bdzie skuteczny;

    - chocia dane gospodarstwo ma wysoki dochd, to nie koniecznie musi duo wydawa na dobra luksusowe, itp..

  • Wystpowanie zalenoci mona wykry tylko przez obserwacj wikszej liczby przypadkw.

    Przykad 4.

    - chorzy, ktrzy zaywaj skuteczny lek s czciej wyleczeni, ni ci, ktrzy go nie przyjmuj;

    - gospodarstwa z wysokimi dochodami wydaj przecitnie wicej na dobra luksusowe ni ubogie gospodarstwa;

    - okrelona liczba studentw powica t sam ilo czasu na przygotowanie si do egzaminu, ale uzyskane wyniki s rne;

    - dziaki zasilamy t sam dawka nawozu, ale w efekcie moemy mie rne plony itp..

    Zaprezentowane w przykadzie 3 zwizki cech (zmiennych) s stochastyczne.


Wspzaleno zjawisk

  • wspzaleno funkcyjna zmiana wartoci jednej zmiennej (X) powoduje cile okrelon zmian drugiej zmiennej (Y). Oznacza to, e zmiennej X odpowiada tylko jedna warto zmiennej Y np. pole kwadratu jest funkcj jego boku, czyli P = a2 (wszystkie kwadraty o boku a maja takie samo pole);

  • wspzaleno stochastyczna wraz ze zmian jednej zmiennej zmienia si rozkad prawdopodobiestwa drugiej zmiennej. Szczeglnym przypadkiem jest zaleno korelacyjna.


Stochastyczny zwizek cech mona prezentowa tabelarycznie. Tablic ujmujc ten zwizek nazywa si tablic korelacyjn (ac. corelatio: wspzaleno, wzajemny stosunek). przyjmujemy zasad: Y cecha zalena; X cecha niezalena (lub odwrotnie), a wic mwic o zwizku cech, rozumiemy zwizek 2-ch cech. W tablicy korelacyjnej mamy s + r szeregw rozdzielczych warunkowych oraz 2 szeregi rozdzielcze gwne (brzegowe). Wszystkie rozkady s jednowymiarowe (zastosowanie maj uprzednio poznane statystyczne miary opisu dotyczce jednej cechy)

x przyjmuje r wariantw - i = 1,2,3,4r(odmiany cechy niezalenej)

y przyjmuje s wariantw - j = 1,2,3,4,s(odmiany cechy zalenej)


Przykad 5. Wydajno pracy Y (w tys. sztuk wyrobw na osob) oraz sta pracy X (w latach) pracownikw w zakadzie A przedstawia tablica 1.Tablica 1.

  • nij liczba jednostek, ktre posiadaj jednoczenie wariant xi cechy X oraz wariant yj cechy Y

  • I tak np. liczb 20 (znajdujca si w dolnym prawym rogu) mona interpretowa jako liczb osb o wydajnoci w granicach 7 9 tys. sztuk wyrobw i o stau pracy od 6 do 8 lat.


  • Tablica korelacyjna, ktr budujemy zazwyczaj wedug uporzdkowania cechy niezalenej (X), moe by take czytana odwrotnie, jeli zamiana cech ma sens z merytorycznego punktu widzenia.

    Przykad 6.

    Interesuje nas zwizek midzy liczb osb w gospodarstwie domowym a spoyciem mleka.

    W tym przypadku liczba osb wpywa na spoycie mleka, ale nie na odwrt. Zatem spoycie mleka bdzie zmienn zalen (Y) a liczba osb w gospodarstwie zmienn niezalen (X).


  • Poza tabelaryczn prezentacj zwizkw stochastycznych (w postaci tablicy korelacyjnej) istniej graficzne sposoby ich obrazowania.


Badanie populacji na 2 cechy

  • Przykad 7.

  • Zamy, e populacja studentw (n = 15) jest opisywana za pomoc dwch cech (x1) i (x2), tzn. m = 2, n = 36.

  • Wtedy macierz obserwacji ma wymiary n x m (36 x 2), a i - ta obserwacja opisywana jest par liczb xi1 oraz xi2.

  • W ukadzie wsprzdnych odpowiada to punktowi pi = [xi1, xi2]. Mamy wic 15 punktw.


Tablica 2. Wartoci cech odpowiadajce poszczeglnym obserwacjom (i)

  • rdo: dane fikcyjne


Rys.1. Wykres punktowy populacji badanej na 2 cechy x1 i x2


  • Z rys.1 wida wyranie, i na og im wiksza warto cechy (x1), tym wiksz warto przyjmuje cecha (x2) i odwrotnie.


Przykad 4.

  • Zamy, e obecnie populacja studentw (n = 15) jest opisywana za pomoc dwch innych cech (x1) i (x3). Wyniki prby 15-elementowej badane ze wzgldu na te cechy prezentuj si na poniszym rysunku 2:

  • Rys.2.


  • Z rys.2 , w odrnieniu od rys.1, nie wida wyranie, aby wartoci cechy x1 i x3 byy w jaki sposb ze sob powizane.

  • Na oko mona tylko stwierdzi, i cechy x1 i x2 (rys.1)s zapewne ze sob cilej powizane ni cechy x1 i x3 (rys.2).

  • Pytanie 1? Jak oceni i zmierzy si zwizku dwch cech?


  • Metoda pozwalajca na ocen i mierzenie siy zwizku cech stanowi przedmiot analizy korelacji.


Uwaga!

  • Badanie zwizkw korelacyjnych ma sens jedynie tylko wtedy, gdy midzy zmiennymi istnieje wi przyczynowo-skutkowa, dajca si logicznie wytumaczy.

  • Analiza zwizkw midzy zjawiskami powinna by dwukierunkowa: jakociowa i ilociowa.

  • Zawsze na podstawie analizy merytorycznej naley uzasadni logiczne wystpowanie zwizku a dopiero potem mona przystpi do okrelania kierunku i siy zalenoci.


  • Badanie korelacji midzy zmiennymi (szeregami)

  • Zestawienie kilku szeregw=szukanie wzajemnych zwizkw i porwnanie wartoci liczbowych cech w tych szeregach= wykrycie okrelonych prawidowoci

  • Zmienna=szereg liczbowy=wartoci liczbowe cech w szeregu


  • Parametrem wykorzystywanym do oceny siy i kierunku zalenoci pomidzy zmiennymi jestwspczynnik korelacji, zwany rwniewspczynnikiem korelacji Persona.


Wspczynnik korelacji Pearsona

  • rxy jest miernikiem zwizku liniowego midzy dwiema cechami (zmiennymi) mierzalnymi

  • jest wyznaczany poprzez standaryzacj kowariancji

  • kowariancja (wariancja wsplna cech x i y) jest redni arytmetyczn iloczynu odchyle wartoci liczbowych tych cech (zmiennych) x i y od ich rednich arytmetycznych


  • Wspczynnik korelacji jest symetryczny, tzn. rxy = ryx i przyjmuje wartoci z przedziau <-1,1>.

  • Rwny jest zeru, gdy midzy cechami nie zachodzi liniowa zaleno.

  • Modu (warto bezwzgldna) wspczynnika korelacji rwny jest jednoci, gdy pomidzy cechami zachodzi zwizek funkcyjny.

  • Im warto moduu wspczynnika korelacji jest bardziej zbliona do jednoci, tym zaleno midzy badanymi cechami jest silniejsza.

  • Znak wspczynnika charakteryzuje kierunek zalenoci.

  • Jeeli wspczynnik korelacji jest dodatni, wwczas wzrost wartoci jednej cechy powoduje wzrost wartoci drugiej cechy (ewentualnie spadek wartoci jednej cechy powoduje spadek wartoci drugiej cechy).

  • W przypadku ujemnej wartoci wspczynnika korelacji moemy stwierdzi, i wzrost wartoci jednej cechy powoduje spadek wartoci drugiej cechy.


Inna posta wspczynnika korelacji Pearsona

  • W analizach statystycznych przyjmuje si, e jeeli wspczynnik korelacji wynosi:

    • mniej ni 0,2 - brak zwizku liniowego midzy badanymi cechami;

    • 0,2 0,4 zaleno liniowa wyrana, lecz niska;

    • 0,4 0,7 zaleno umiarkowana;

    • 0,7 0,9 zaleno znaczca;

    • powyej 0,9 zaleno bardzo silna.

  • Kwadrat wspczynnika korelacji nazywamy wspczynnikiem determinacji R2.


Wspczynnik korelacji Pearsona dla danych pogrupowanych obliczamy zgodnie ze wzorem:

gdzie:

S(x) i S(y) s odchyleniami standardowymi rozkadw brzegowych


  • Kady zwizek korelacyjny jest ze swej istoty zwizkiem stochastycznym (ale nie odwrotnie!).

  • Czy poznajc zaleno liniow miedzy cechami, istnieje metoda umoliwiajca w pewnym przyblieniu przewidzie warto jednej cechy na podstawie znajomoci drugiej?

    (gdyby badane cechy x i y byy powizane cisym zwizkiem funkcyjnym typu y = f ( x ), to znajc warto jednej z cech np. x , mona by w sposb jednoznaczny przewidzie warto drugiej cechy y).

  • Jeli tak, to jak dobre jest to przyblienie?


  • Zagadnienie opisu zalenoci midzy cechami x i y (zmiennymi X i Y) jest przedmiotem analizy regresji.

  • Zaleno midzy cechami (zmiennymi) przedstawiona jest za pomoc funkcji regresji.

  • Funkcja regresji przyjmuje posta modelu regresji.


Pojcie funkcji regresji

  • Przykad 8.

    Podstaw analizy zalenoci bdzie zbir danych w postaci n uporzdkowanych par liczb:

    (x1,y1), (x2,y2), (xn,yn)

    reprezentujcych liczb osb i spoycie mleka w zbiorze n gospodarstw.

    Wszystkie obserwacje na dwch zmiennych odwzorowane w ukadzie wsprzdnych w postaci n punktw tworz wykres rozrzutu punktw empirycznych (zob. wczeniej prezentowane rys.1i 2).


Rysunek 4. Wykres rozrzutu punktw empirycznych charakteryzujcych wielko gospodarstw i spoycie mleka

  • Gospodarstwa o danej liczbie osb spoywaj rne iloci mleka (rne s ich dochody, upodobania, wiek itp..).

  • Kadej ustalonej wartoci x odpowiada na og nie jedna warto zmiennej Y, lecz zbir rnych wartoci tworzcych pewien rozkad.

  • Rozkad Y dla ustalonej wartoci x nazywamy warunkowym rozkadem Y.

  • Rozkady warunkowe spoycia (Y) s reprezentowane na wykresie przez uoone pionowo nad kad wartoci x punkty.


Rysunek 5. Wykres rozrzutu punktw empirycznych charakteryzujcych wielko gospodarstw i spoycie mleka

  • Na rys.5 widoczne jest np., e przy wzrocie wartoci x rozkady warunkowe przemieszczaj si w gr ku wyszym wartociom Y.

  • Najatwiej zaobserwowa rnic miedzy rozkadami warunkowymi zmiennej Y obliczajc dla kadego z nich redni.

  • rednie w warunkowych rozkadach spoycia zaznaczono czerwonymi kkami.

  • Zbir punktw reprezentujcych te rednie okrela regresj Y wzgldem X (regresj spoycia mleka wzgldem liczby osb w gospodarstwie).


Rysunek 6. Empiryczna linia regresji

  • Funkcja regresji to analityczny obraz przyporzdkowania rednich wartoci zmiennej Y (zmiennej zalenej) konkretnym wartociom zmiennej X (zmiennej niezalenej):

  • Funkcja f (xi) redniej warunkowej zmiennej Y jest funkcj regresji I rodzaju (odnosi si do caej populacji).

  • Analityczna posta funkcji f (xi) jest zwykle nieznana.

  • Na podstawie zaobserwowanych wynikw w prbce moemy przedstawi graficznie w ukadzie wsprzdnych jedynie empiryczn lini regresji zmiennej Y wzgldem zmiennej X.


Rysunek 7. Empiryczna linia regresji zmiennej Y wzgldem X

  • Empiryczna linia regresji zmiennej Y wzgldem zmiennej X jest lini aman powsta przez poczenie punktw o wsprzdnych:

    czyli:

    (cecha niezalena, odpowiadajca jej rednia warunkowa)

  • Wykres empirycznej linii regresji pozwala postawi hipotez na temat typu funkcji matematycznej


Rysunek 8 i 9. Wykresy rozrzutu punktw empirycznych sugerujcy liniow regresj Y wzgldem X

Wykres rozrzutu punktw empirycznych sporzdzony na podstawie obserwacji na zmiennych X i Y sugeruje, e regresja zmiennej Y wzgldem Y jest liniowa.

Inaczej - zakadamy, e rednie w warunkowych rozkadach zmiennej Y s liniow funkcj zmiennej X, czyli funkcj o postaci:

(posta liniowa funkcji regresji I rodzaju).

Skadnik losowy w rwnaniach regresji peni rol bdu przypadkowego, zakcajcego funkcyjny zwizek midzy wartociami zmiennej objanianej a wartociami zmiennej objaniajcej.

Skadnik losowy jest w istocie pewn zmienna losow o odpowiednim rozkadzie prawdopodobiestwa


Rysunek 10. Wykres rozrzutu punktw empirycznych oraz prosta regresji I rodzaju

  • Szukamy takiej prostej, by najlepiej pasowaa do punktw na wykresie.

  • Prosta okrelona bdzie za pomoc parametrw: - wspczynnika kierunkowego 1 oraz wyrazu wolnego 0.

  • Stopie tego dopasowania moemy ocenia na podstawie wielkoci odchyle punktw reprezentujcych obserwowane wartoci zmiennej Y od prostej.


Rysunek 10 i 11. Ilustracja metody najmniejszych kwadratw

  • Do poszukiwania najlepiej dopasowanej prostej stosuje si kryterium minimalizacji sumy kwadratw odchyle.

  • Metoda wyznaczania parametrw prostej oparta na tym kryterium nosi nazw metody najmniejszych kwadratw (MNK).

  • Stosujc MNK wyznacza si na podstawie danych (xi, yi), i=1,2,, n, parametry 0 i 1 prostejtak, by suma kwadratw odchyle yi od 0 +1xi bya najmniejsza:


Wyznaczanie parametrw prostej regresji

  • Wyraenie S przyjmuje najmniejsz warto dla:


Oszacowaniem funkcji regresji Y wzgldem X w populacji generalnej jest funkcja regresji y wzgldem x w prbie losowej (zwana aproksymant) majca nastpujc posta:


  • Login