Metody analizy wsp zale no ci cech zmiennych
This presentation is the property of its rightful owner.
Sponsored Links
1 / 36

Metody analizy współzależności cech (zmiennych) PowerPoint PPT Presentation


  • 116 Views
  • Uploaded on
  • Presentation posted in: General

Metody analizy współzależności cech (zmiennych). Wykład 6 dr Małgorzata Radziukiewicz. Poszczególne jednostki populacji mogą być badane: ze względu na jedną cechę ; jednocześnie ze względu na dwie lub więcej cech . Przykład 1.

Download Presentation

Metody analizy współzależności cech (zmiennych)

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Metody analizy wsp zale no ci cech zmiennych

Metody analizy wspzalenoci cech (zmiennych)

Wykad 6

dr Magorzata Radziukiewicz


Metody analizy wsp zale no ci cech zmiennych

  • Poszczeglne jednostki populacji mog by badane:

    • ze wzgldu na jedn cech;

    • jednoczenie ze wzgldu na dwie lub wicej cech.

      Przykad 1.

      Gospodarstwa domowe mog by badane nie tylko ze wzgldu na wysoko miesicznych dochodw, lecz rwnie ze wzgldu na liczb osb w gospodarstwie, wiek gowy gospodarstwa, wysoko miesicznych wydatkw, liczb osb pracujcych, czy stosowany lek (wielko dawki) ma wpyw na stan zdrowia itp.


Metody analizy wsp zale no ci cech zmiennych

  • Inaczej mwic moemy bada populacj ze wzgldu na m cech. Wektor cech zapisujemy:

    x = [x1, x2,, xm]

    Przykad 2.

  • Studenci statystyki WSMiZ w Sochaczewie byli badani ze wzgldu na wag (x). Teraz mog by badani nie tylko ze wzgldu na wag (x1), lecz rwnie wedug wzrostu (x2), wieku (x3), pci (x4), charakteru studiw (dzienne, zaoczne) (x5) itp.


Metody analizy wsp zale no ci cech zmiennych

  • Poszczeglne cechy mog by:

    • od siebie odizolowane;

    • wzajemnie ze sob powizane.

  • Dzia statystyki zajmujcy si badaniem zwizkw midzy kilkoma cechami (zmiennymi) nosi nazw teorii wspzalenoci.


Metody analizy wsp zale no ci cech zmiennych

  • Wykrycie zalenoci midzy cechami nie jest atwe, nawet jeli ich wystpowanie wydaje si oczywiste.

    Przykad 3.

    - chocia dany lek jest bardzo dobry, to jednak nie dla kadej osoby bdzie skuteczny;

    - chocia dane gospodarstwo ma wysoki dochd, to nie koniecznie musi duo wydawa na dobra luksusowe, itp..

  • Wystpowanie zalenoci mona wykry tylko przez obserwacj wikszej liczby przypadkw.

    Przykad 4.

    - chorzy, ktrzy zaywaj skuteczny lek s czciej wyleczeni, ni ci, ktrzy go nie przyjmuj;

    - gospodarstwa z wysokimi dochodami wydaj przecitnie wicej na dobra luksusowe ni ubogie gospodarstwa;

    - okrelona liczba studentw powica t sam ilo czasu na przygotowanie si do egzaminu, ale uzyskane wyniki s rne;

    - dziaki zasilamy t sam dawka nawozu, ale w efekcie moemy mie rne plony itp..

    Zaprezentowane w przykadzie 3 zwizki cech (zmiennych) s stochastyczne.


Wsp zale no zjawisk

Wspzaleno zjawisk

  • wspzaleno funkcyjna zmiana wartoci jednej zmiennej (X) powoduje cile okrelon zmian drugiej zmiennej (Y). Oznacza to, e zmiennej X odpowiada tylko jedna warto zmiennej Y np. pole kwadratu jest funkcj jego boku, czyli P = a2 (wszystkie kwadraty o boku a maja takie samo pole);

  • wspzaleno stochastyczna wraz ze zmian jednej zmiennej zmienia si rozkad prawdopodobiestwa drugiej zmiennej. Szczeglnym przypadkiem jest zaleno korelacyjna.


Metody analizy wsp zale no ci cech zmiennych

Stochastyczny zwizek cech mona prezentowa tabelarycznie. Tablic ujmujc ten zwizek nazywa si tablic korelacyjn (ac. corelatio: wspzaleno, wzajemny stosunek). przyjmujemy zasad: Y cecha zalena; X cecha niezalena (lub odwrotnie), a wic mwic o zwizku cech, rozumiemy zwizek 2-ch cech. W tablicy korelacyjnej mamy s + r szeregw rozdzielczych warunkowych oraz 2 szeregi rozdzielcze gwne (brzegowe). Wszystkie rozkady s jednowymiarowe (zastosowanie maj uprzednio poznane statystyczne miary opisu dotyczce jednej cechy)

x przyjmuje r wariantw - i = 1,2,3,4r(odmiany cechy niezalenej)

y przyjmuje s wariantw - j = 1,2,3,4,s(odmiany cechy zalenej)


Metody analizy wsp zale no ci cech zmiennych

Przykad 5. Wydajno pracy Y (w tys. sztuk wyrobw na osob) oraz sta pracy X (w latach) pracownikw w zakadzie A przedstawia tablica 1.Tablica 1.

  • nij liczba jednostek, ktre posiadaj jednoczenie wariant xi cechy X oraz wariant yj cechy Y

  • I tak np. liczb 20 (znajdujca si w dolnym prawym rogu) mona interpretowa jako liczb osb o wydajnoci w granicach 7 9 tys. sztuk wyrobw i o stau pracy od 6 do 8 lat.


Metody analizy wsp zale no ci cech zmiennych

  • Tablica korelacyjna, ktr budujemy zazwyczaj wedug uporzdkowania cechy niezalenej (X), moe by take czytana odwrotnie, jeli zamiana cech ma sens z merytorycznego punktu widzenia.

    Przykad 6.

    Interesuje nas zwizek midzy liczb osb w gospodarstwie domowym a spoyciem mleka.

    W tym przypadku liczba osb wpywa na spoycie mleka, ale nie na odwrt. Zatem spoycie mleka bdzie zmienn zalen (Y) a liczba osb w gospodarstwie zmienn niezalen (X).


Metody analizy wsp zale no ci cech zmiennych

  • Poza tabelaryczn prezentacj zwizkw stochastycznych (w postaci tablicy korelacyjnej) istniej graficzne sposoby ich obrazowania.


Badanie populacji na 2 cechy

Badanie populacji na 2 cechy

  • Przykad 7.

  • Zamy, e populacja studentw (n = 15) jest opisywana za pomoc dwch cech (x1) i (x2), tzn. m = 2, n = 36.

  • Wtedy macierz obserwacji ma wymiary n x m (36 x 2), a i - ta obserwacja opisywana jest par liczb xi1 oraz xi2.

  • W ukadzie wsprzdnych odpowiada to punktowi pi = [xi1, xi2]. Mamy wic 15 punktw.


Tablica 2 warto ci cech odpowiadaj ce poszczeg lnym obserwacjom i

Tablica 2. Wartoci cech odpowiadajce poszczeglnym obserwacjom (i)

  • rdo: dane fikcyjne


Rys 1 wykres punktowy populacji badanej na 2 cechy x 1 i x 2

Rys.1. Wykres punktowy populacji badanej na 2 cechy x1 i x2


Metody analizy wsp zale no ci cech zmiennych

  • Z rys.1 wida wyranie, i na og im wiksza warto cechy (x1), tym wiksz warto przyjmuje cecha (x2) i odwrotnie.


Metody analizy wsp zale no ci cech zmiennych

Przykad 4.

  • Zamy, e obecnie populacja studentw (n = 15) jest opisywana za pomoc dwch innych cech (x1) i (x3). Wyniki prby 15-elementowej badane ze wzgldu na te cechy prezentuj si na poniszym rysunku 2:

  • Rys.2.


Metody analizy wsp zale no ci cech zmiennych

  • Z rys.2 , w odrnieniu od rys.1, nie wida wyranie, aby wartoci cechy x1 i x3 byy w jaki sposb ze sob powizane.

  • Na oko mona tylko stwierdzi, i cechy x1 i x2 (rys.1)s zapewne ze sob cilej powizane ni cechy x1 i x3 (rys.2).

  • Pytanie 1? Jak oceni i zmierzy si zwizku dwch cech?


Metody analizy wsp zale no ci cech zmiennych

  • Metoda pozwalajca na ocen i mierzenie siy zwizku cech stanowi przedmiot analizy korelacji.


Metody analizy wsp zale no ci cech zmiennych

Uwaga!

  • Badanie zwizkw korelacyjnych ma sens jedynie tylko wtedy, gdy midzy zmiennymi istnieje wi przyczynowo-skutkowa, dajca si logicznie wytumaczy.

  • Analiza zwizkw midzy zjawiskami powinna by dwukierunkowa: jakociowa i ilociowa.

  • Zawsze na podstawie analizy merytorycznej naley uzasadni logiczne wystpowanie zwizku a dopiero potem mona przystpi do okrelania kierunku i siy zalenoci.


Metody analizy wsp zale no ci cech zmiennych

  • Badanie korelacji midzy zmiennymi (szeregami)

  • Zestawienie kilku szeregw=szukanie wzajemnych zwizkw i porwnanie wartoci liczbowych cech w tych szeregach= wykrycie okrelonych prawidowoci

  • Zmienna=szereg liczbowy=wartoci liczbowe cech w szeregu


Metody analizy wsp zale no ci cech zmiennych

  • Parametrem wykorzystywanym do oceny siy i kierunku zalenoci pomidzy zmiennymi jestwspczynnik korelacji, zwany rwniewspczynnikiem korelacji Persona.


Wsp czynnik korelacji pearsona

Wspczynnik korelacji Pearsona

  • rxy jest miernikiem zwizku liniowego midzy dwiema cechami (zmiennymi) mierzalnymi

  • jest wyznaczany poprzez standaryzacj kowariancji

  • kowariancja (wariancja wsplna cech x i y) jest redni arytmetyczn iloczynu odchyle wartoci liczbowych tych cech (zmiennych) x i y od ich rednich arytmetycznych


Metody analizy wsp zale no ci cech zmiennych

  • Wspczynnik korelacji jest symetryczny, tzn. rxy = ryx i przyjmuje wartoci z przedziau <-1,1>.

  • Rwny jest zeru, gdy midzy cechami nie zachodzi liniowa zaleno.

  • Modu (warto bezwzgldna) wspczynnika korelacji rwny jest jednoci, gdy pomidzy cechami zachodzi zwizek funkcyjny.

  • Im warto moduu wspczynnika korelacji jest bardziej zbliona do jednoci, tym zaleno midzy badanymi cechami jest silniejsza.

  • Znak wspczynnika charakteryzuje kierunek zalenoci.

  • Jeeli wspczynnik korelacji jest dodatni, wwczas wzrost wartoci jednej cechy powoduje wzrost wartoci drugiej cechy (ewentualnie spadek wartoci jednej cechy powoduje spadek wartoci drugiej cechy).

  • W przypadku ujemnej wartoci wspczynnika korelacji moemy stwierdzi, i wzrost wartoci jednej cechy powoduje spadek wartoci drugiej cechy.


Inna posta wsp czynnika korelacji pearsona

Inna posta wspczynnika korelacji Pearsona

  • W analizach statystycznych przyjmuje si, e jeeli wspczynnik korelacji wynosi:

    • mniej ni 0,2 - brak zwizku liniowego midzy badanymi cechami;

    • 0,2 0,4 zaleno liniowa wyrana, lecz niska;

    • 0,4 0,7 zaleno umiarkowana;

    • 0,7 0,9 zaleno znaczca;

    • powyej 0,9 zaleno bardzo silna.

  • Kwadrat wspczynnika korelacji nazywamy wspczynnikiem determinacji R2.


Metody analizy wsp zale no ci cech zmiennych

Wspczynnik korelacji Pearsona dla danych pogrupowanych obliczamy zgodnie ze wzorem:

gdzie:

S(x) i S(y) s odchyleniami standardowymi rozkadw brzegowych


Metody analizy wsp zale no ci cech zmiennych

  • Kady zwizek korelacyjny jest ze swej istoty zwizkiem stochastycznym (ale nie odwrotnie!).

  • Czy poznajc zaleno liniow miedzy cechami, istnieje metoda umoliwiajca w pewnym przyblieniu przewidzie warto jednej cechy na podstawie znajomoci drugiej?

    (gdyby badane cechy x i y byy powizane cisym zwizkiem funkcyjnym typu y = f ( x ), to znajc warto jednej z cech np. x , mona by w sposb jednoznaczny przewidzie warto drugiej cechy y).

  • Jeli tak, to jak dobre jest to przyblienie?


Metody analizy wsp zale no ci cech zmiennych

  • Zagadnienie opisu zalenoci midzy cechami x i y (zmiennymi X i Y) jest przedmiotem analizy regresji.

  • Zaleno midzy cechami (zmiennymi) przedstawiona jest za pomoc funkcji regresji.

  • Funkcja regresji przyjmuje posta modelu regresji.


Poj cie funkcji regresji

Pojcie funkcji regresji

  • Przykad 8.

    Podstaw analizy zalenoci bdzie zbir danych w postaci n uporzdkowanych par liczb:

    (x1,y1), (x2,y2), (xn,yn)

    reprezentujcych liczb osb i spoycie mleka w zbiorze n gospodarstw.

    Wszystkie obserwacje na dwch zmiennych odwzorowane w ukadzie wsprzdnych w postaci n punktw tworz wykres rozrzutu punktw empirycznych (zob. wczeniej prezentowane rys.1i 2).


Metody analizy wsp zale no ci cech zmiennych

Rysunek 4. Wykres rozrzutu punktw empirycznych charakteryzujcych wielko gospodarstw i spoycie mleka

  • Gospodarstwa o danej liczbie osb spoywaj rne iloci mleka (rne s ich dochody, upodobania, wiek itp..).

  • Kadej ustalonej wartoci x odpowiada na og nie jedna warto zmiennej Y, lecz zbir rnych wartoci tworzcych pewien rozkad.

  • Rozkad Y dla ustalonej wartoci x nazywamy warunkowym rozkadem Y.

  • Rozkady warunkowe spoycia (Y) s reprezentowane na wykresie przez uoone pionowo nad kad wartoci x punkty.


Metody analizy wsp zale no ci cech zmiennych

Rysunek 5. Wykres rozrzutu punktw empirycznych charakteryzujcych wielko gospodarstw i spoycie mleka

  • Na rys.5 widoczne jest np., e przy wzrocie wartoci x rozkady warunkowe przemieszczaj si w gr ku wyszym wartociom Y.

  • Najatwiej zaobserwowa rnic miedzy rozkadami warunkowymi zmiennej Y obliczajc dla kadego z nich redni.

  • rednie w warunkowych rozkadach spoycia zaznaczono czerwonymi kkami.

  • Zbir punktw reprezentujcych te rednie okrela regresj Y wzgldem X (regresj spoycia mleka wzgldem liczby osb w gospodarstwie).


Rysunek 6 empiryczna linia regresji

Rysunek 6. Empiryczna linia regresji

  • Funkcja regresji to analityczny obraz przyporzdkowania rednich wartoci zmiennej Y (zmiennej zalenej) konkretnym wartociom zmiennej X (zmiennej niezalenej):

  • Funkcja f (xi) redniej warunkowej zmiennej Y jest funkcj regresji I rodzaju (odnosi si do caej populacji).

  • Analityczna posta funkcji f (xi) jest zwykle nieznana.

  • Na podstawie zaobserwowanych wynikw w prbce moemy przedstawi graficznie w ukadzie wsprzdnych jedynie empiryczn lini regresji zmiennej Y wzgldem zmiennej X.


Rysunek 7 empiryczna linia regresji zmiennej y wzgl dem x

Rysunek 7. Empiryczna linia regresji zmiennej Y wzgldem X

  • Empiryczna linia regresji zmiennej Y wzgldem zmiennej X jest lini aman powsta przez poczenie punktw o wsprzdnych:

    czyli:

    (cecha niezalena, odpowiadajca jej rednia warunkowa)

  • Wykres empirycznej linii regresji pozwala postawi hipotez na temat typu funkcji matematycznej


Rysunek 8 i 9 wykresy rozrzutu punkt w empirycznych sugeruj cy liniow regresj y wzgl dem x

Rysunek 8 i 9. Wykresy rozrzutu punktw empirycznych sugerujcy liniow regresj Y wzgldem X

Wykres rozrzutu punktw empirycznych sporzdzony na podstawie obserwacji na zmiennych X i Y sugeruje, e regresja zmiennej Y wzgldem Y jest liniowa.

Inaczej - zakadamy, e rednie w warunkowych rozkadach zmiennej Y s liniow funkcj zmiennej X, czyli funkcj o postaci:

(posta liniowa funkcji regresji I rodzaju).

Skadnik losowy w rwnaniach regresji peni rol bdu przypadkowego, zakcajcego funkcyjny zwizek midzy wartociami zmiennej objanianej a wartociami zmiennej objaniajcej.

Skadnik losowy jest w istocie pewn zmienna losow o odpowiednim rozkadzie prawdopodobiestwa


Rysunek 10 wykres rozrzutu punkt w empirycznych oraz prosta regresji i rodzaju

Rysunek 10. Wykres rozrzutu punktw empirycznych oraz prosta regresji I rodzaju

  • Szukamy takiej prostej, by najlepiej pasowaa do punktw na wykresie.

  • Prosta okrelona bdzie za pomoc parametrw: - wspczynnika kierunkowego 1 oraz wyrazu wolnego 0.

  • Stopie tego dopasowania moemy ocenia na podstawie wielkoci odchyle punktw reprezentujcych obserwowane wartoci zmiennej Y od prostej.


Rysunek 10 i 11 ilustracja metody najmniejszych kwadrat w

Rysunek 10 i 11. Ilustracja metody najmniejszych kwadratw

  • Do poszukiwania najlepiej dopasowanej prostej stosuje si kryterium minimalizacji sumy kwadratw odchyle.

  • Metoda wyznaczania parametrw prostej oparta na tym kryterium nosi nazw metody najmniejszych kwadratw (MNK).

  • Stosujc MNK wyznacza si na podstawie danych (xi, yi), i=1,2,, n, parametry 0 i 1 prostejtak, by suma kwadratw odchyle yi od 0 +1xi bya najmniejsza:


Wyznaczanie parametr w prostej regresji

Wyznaczanie parametrw prostej regresji

  • Wyraenie S przyjmuje najmniejsz warto dla:


Metody analizy wsp zale no ci cech zmiennych

Oszacowaniem funkcji regresji Y wzgldem X w populacji generalnej jest funkcja regresji y wzgldem x w prbie losowej (zwana aproksymant) majca nastpujc posta:


  • Login