Metody analizy wsp zale no ci cech zmiennych
Download
1 / 36

Metody analizy współzależności cech (zmiennych) - PowerPoint PPT Presentation


  • 180 Views
  • Uploaded on

Metody analizy współzależności cech (zmiennych). Wykład 6 dr Małgorzata Radziukiewicz. Poszczególne jednostki populacji mogą być badane: ze względu na jedną cechę ; jednocześnie ze względu na dwie lub więcej cech . Przykład 1.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Metody analizy współzależności cech (zmiennych)' - scout


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Metody analizy wsp zale no ci cech zmiennych

Metody analizy współzależności cech (zmiennych)

Wykład 6

dr Małgorzata Radziukiewicz


  • Poszczególne jednostki populacji mogą być badane:

    • ze względu na jedną cechę;

    • jednocześnie ze względu na dwie lub więcej cech.

      Przykład 1.

      Gospodarstwa domowe mogą być badane nie tylko ze względu na wysokość miesięcznych dochodów, lecz również ze względu na liczbę osób w gospodarstwie, wiek głowy gospodarstwa, wysokość miesięcznych wydatków, liczbę osób pracujących, czy stosowany lek (wielkość dawki) ma wpływ na stan zdrowia itp.


  • Inaczej mówiąc możemy badać populację ze względu na m cech. Wektor cech zapisujemy:

    x = [x1, x2,…, xm]

    Przykład 2.

  • Studenci statystyki WSMiZ w Sochaczewie byli badani ze względu na wagę (x). Teraz mogą być badani nie tylko ze względu na wagę (x1), lecz również według wzrostu (x2), wieku (x3), płci (x4), charakteru studiów (dzienne, zaoczne) (x5) itp.


  • Poszczególne cechy mogą być:

    • od siebie odizolowane;

    • wzajemnie ze sobą powiązane.

  • Dział statystyki zajmujący się badaniem związków między kilkoma cechami (zmiennymi) nosi nazwę teorii współzależności.


  • Wykrycie zależności między cechami nie jest łatwe, nawet jeśli ich występowanie wydaje się oczywiste.

    Przykład 3.

    - chociaż dany lek jest bardzo dobry, to jednak nie dla każdej osoby będzie skuteczny;

    - chociaż dane gospodarstwo ma wysoki dochód, to nie koniecznie musi dużo wydawać na dobra luksusowe, itp..

  • Występowanie zależności można wykryć tylko przez obserwację większej liczby przypadków.

    Przykład 4.

    - chorzy, którzy zażywają skuteczny lek są częściej wyleczeni, niż ci, którzy go nie przyjmują;

    - gospodarstwa z wysokimi dochodami wydają przeciętnie więcej na dobra luksusowe niż ubogie gospodarstwa;

    - określona liczba studentów poświęca tę samą ilość czasu na przygotowanie się do egzaminu, ale uzyskane wyniki są różne;

    - działki zasilamy tą samą dawka nawozu, ale w efekcie możemy mieć różne plony itp..

    ■ Zaprezentowane w przykładzie 3 związki cech (zmiennych) są stochastyczne.


Wsp zale no zjawisk
Współzależność zjawisk jeśli ich występowanie wydaje się oczywiste.

  • współzależność funkcyjna – zmiana wartości jednej zmiennej (X) powoduje ściśle określoną zmianę drugiej zmiennej (Y). Oznacza to, że zmiennej X odpowiada tylko jedna wartość zmiennej Y np. pole kwadratu jest funkcją jego boku, czyli P = a2 (wszystkie kwadraty o boku a maja takie samo pole);

  • współzależność stochastyczna – wraz ze zmianą jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególnym przypadkiem jest zależność korelacyjna.


jeśli ich występowanie wydaje się oczywiste.Stochastyczny związek cech można prezentować tabelarycznie.● Tablicę ujmującą ten związek nazywa się tablicą korelacyjną (łac. corelatio: współzależność, wzajemny stosunek).● przyjmujemy zasadę: Y – cecha zależna; X – cecha niezależna (lub odwrotnie), a więc mówiąc o związku cech, rozumiemy związek 2-óch cech.● W tablicy korelacyjnej mamy s + r szeregów rozdzielczych warunkowych oraz 2 szeregi rozdzielcze główne (brzegowe).● Wszystkie rozkłady są jednowymiarowe (zastosowanie mają uprzednio poznane statystyczne miary opisu dotyczące jednej cechy)

x przyjmuje r wariantów - i = 1,2,3,4…r(odmiany cechy niezależnej)

y przyjmuje s wariantów - j = 1,2,3,4,…s (odmiany cechy zależnej)


Przykład 5. jeśli ich występowanie wydaje się oczywiste.Wydajność pracy Y (w tys. sztuk wyrobów na osobę) oraz staż pracy X (w latach) pracowników w zakładzie A przedstawia tablica 1.Tablica 1.

  • nij – liczba jednostek, które posiadają jednocześnie wariant xi cechy X oraz wariant yj cechy Y

  • I tak np. liczbę 20 (znajdująca się w dolnym prawym rogu) można interpretować jako liczbę osób o wydajności w granicach 7 – 9 tys. sztuk wyrobów i o stażu pracy od 6 do 8 lat.


  • Tablica korelacyjna, którą budujemy zazwyczaj według uporządkowania cechy niezależnej (X), może być także czytana „odwrotnie”, jeśli zamiana cech ma sens z merytorycznego punktu widzenia.

    Przykład 6.

    Interesuje nas związek między liczbą osób w gospodarstwie domowym a spożyciem mleka.

    W tym przypadku liczba osób wpływa na spożycie mleka, ale nie na odwrót. Zatem spożycie mleka będzie zmienną zależną (Y) a liczba osób w gospodarstwie zmienną niezależną (X).



Badanie populacji na 2 cechy
Badanie populacji na 2 cechy (w postaci tablicy korelacyjnej) istnieją graficzne sposoby ich obrazowania.

  • Przykład 7.

  • Załóżmy, że populacja studentów (n = 15) jest opisywana za pomocą dwóch cech (x1) i (x2), tzn. m = 2, n = 36.

  • Wtedy macierz obserwacji ma wymiary n x m (36 x 2), a i - ta obserwacja opisywana jest parą liczb xi1 oraz xi2.

  • W układzie współrzędnych odpowiada to punktowi pi = [xi1, xi2]. Mamy więc 15 punktów.


Tablica 2 warto ci cech odpowiadaj ce poszczeg lnym obserwacjom i
Tablica 2. Wartości cech odpowiadające poszczególnym obserwacjom (i)

  • Źródło: dane fikcyjne




Przykład 4. wartość cechy (x

  • Załóżmy, że obecnie populacja studentów (n = 15) jest opisywana za pomocą dwóch innych cech (x1) i (x3). Wyniki próby 15-elementowej badane ze względu na te cechy prezentują się na poniższym rysunku 2:

  • Rys.2.


  • Z rys.2 , w odróżnieniu od rys.1, nie widać wyraźnie, aby wartości cechy x1 i x3 były w jakiś sposób ze sobą powiązane.

  • „Na oko” można tylko stwierdzić, iż cechy x1 i x2 (rys.1)są zapewne ze sobą ściślej powiązane niż cechy x1 i x3 (rys.2).

  • Pytanie 1? – Jak ocenić i zmierzyć siłę związku dwóch cech?



Uwaga! cech stanowi przedmiot

  • Badanie związków korelacyjnych ma sens jedynie tylko wtedy, gdy między zmiennymi istnieje więź przyczynowo-skutkowa, dająca się logicznie wytłumaczyć.

  • Analiza związków między zjawiskami powinna być dwukierunkowa: jakościowa i ilościowa.

  • Zawsze na podstawie analizy merytorycznej należy uzasadnić logiczne występowanie związku a dopiero potem można przystąpić do określania kierunku i siły zależności.


  • Badanie korelacji między zmiennymi (szeregami) cech stanowi przedmiot

  • Zestawienie kilku szeregów=szukanie wzajemnych związków i porównanie wartości liczbowych cech w tych szeregach= wykrycie określonych prawidłowości

  • Zmienna=szereg liczbowy=wartości liczbowe cech w szeregu



Wsp czynnik korelacji pearsona
Współczynnik korelacji Pearsona zależności pomiędzy zmiennymi jest

  • rxy jest miernikiem związku liniowego między dwiema cechami (zmiennymi) mierzalnymi

  • jest wyznaczany poprzez standaryzację kowariancji

  • kowariancja (wariancja wspólna cech x i y) jest średnią arytmetyczną iloczynu odchyleń wartości liczbowych tych cech (zmiennych) x i y od ich średnich arytmetycznych


  • Współczynnik korelacji jest symetryczny, tzn. zależności pomiędzy zmiennymi jestrxy = ryx i przyjmuje wartości z przedziału <-1,1>.

  • Równy jest zeru, gdy między cechami nie zachodzi liniowa zależność.

  • Moduł (wartość bezwzględna) współczynnika korelacji równy jest jedności, gdy pomiędzy cechami zachodzi związek funkcyjny.

  • Im wartość modułu współczynnika korelacji jest bardziej zbliżona do jedności, tym zależność między badanymi cechami jest silniejsza.

  • Znak współczynnika charakteryzuje kierunek zależności.

  • Jeżeli współczynnik korelacji jest dodatni, wówczas wzrost wartości jednej cechy powoduje wzrost wartości drugiej cechy (ewentualnie spadek wartości jednej cechy powoduje spadek wartości drugiej cechy).

  • W przypadku ujemnej wartości współczynnika korelacji możemy stwierdzić, iż wzrost wartości jednej cechy powoduje spadek wartości drugiej cechy.


Inna posta wsp czynnika korelacji pearsona
Inna postać współczynnika korelacji Pearsona zależności pomiędzy zmiennymi jest

  • W analizach statystycznych przyjmuje się, że jeżeli współczynnik korelacji wynosi:

    • mniej niż 0,2 - brak związku liniowego między badanymi cechami;

    • 0,2 – 0,4 → zależność liniowa wyraźna, lecz niska;

    • 0,4 – 0,7 → zależność umiarkowana;

    • 0,7 – 0,9 → zależność znacząca;

    • powyżej 0,9 → zależność bardzo silna.

  • Kwadrat współczynnika korelacji nazywamy współczynnikiem determinacji R2.


Współczynnik korelacji Pearsona zależności pomiędzy zmiennymi jest dla danych pogrupowanych obliczamy zgodnie ze wzorem:

gdzie:

S(x) i S(y) są odchyleniami standardowymi rozkładów brzegowych


  • Każdy związek korelacyjny jest ze swej istoty związkiem stochastycznym (ale nie odwrotnie!).

  • Czy poznając zależność liniową miedzy cechami, istnieje metoda umożliwiająca w pewnym przybliżeniu przewidzieć wartość jednej cechy na podstawie znajomości drugiej?

    (gdyby badane cechy x i y były powiązane ścisłym związkiem funkcyjnym typu y = f ( x ), to znając wartość jednej z cech np. x , można by w sposób jednoznaczny przewidzieć wartość drugiej cechy y).

  • Jeśli tak, to jak dobre jest to przybliżenie?



Poj cie funkcji regresji
Pojęcie funkcji regresji (zmiennymi X i Y) jest przedmiotem

  • Przykład 8.

    Podstawą analizy zależności będzie zbiór danych w postaci n uporządkowanych par liczb:

    (x1,y1), (x2,y2), …(xn,yn)

    reprezentujących liczbę osób i spożycie mleka w zbiorze n gospodarstw.

    Wszystkie obserwacje na dwóch zmiennych odwzorowane w układzie współrzędnych w postaci n punktów tworzą wykres rozrzutu punktów empirycznych (zob. wcześniej prezentowane rys.1i 2).


Rysunek 4. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość gospodarstw i spożycie mleka

  • Gospodarstwa o danej liczbie osób spożywają różne ilości mleka (różne są ich dochody, upodobania, wiek itp..).

  • Każdej ustalonej wartości x odpowiada na ogół nie jedna wartość zmiennej Y, lecz zbiór różnych wartości tworzących pewien rozkład.

  • Rozkład Y dla ustalonej wartości x nazywamy warunkowym rozkładem Y.

  • Rozkłady warunkowe spożycia (Y) są reprezentowane na wykresie przez ułożone pionowo nad każdą wartością x punkty.


Rysunek 5. Wykres rozrzutu punktów empirycznych charakteryzujących wielkość gospodarstw i spożycie mleka

  • Na rys.5 widoczne jest np., że przy wzroście wartości x rozkłady warunkowe „przemieszczają” się w górę ku wyższym wartościom Y.

  • Najłatwiej zaobserwować różnicę miedzy rozkładami warunkowymi zmiennej Y obliczając dla każdego z nich średnią.

  • Średnie w warunkowych rozkładach spożycia zaznaczono czerwonymi kółkami.

  • Zbiór punktów reprezentujących te średnie określa regresję Y względem X (regresję spożycia mleka względem liczby osób w gospodarstwie).


Rysunek 6 empiryczna linia regresji
Rysunek 6. Empiryczna linia regresji charakteryzujących wielkość gospodarstw i spożycie mleka

  • Funkcja regresji to analityczny obraz przyporządkowania średnich wartości zmiennej Y (zmiennej zależnej) konkretnym wartościom zmiennej X (zmiennej niezależnej):

  • Funkcja f (xi) średniej warunkowej zmiennej Y jest funkcją regresji I rodzaju (odnosi się do całej populacji).

  • Analityczna postać funkcji f (xi) jest zwykle nieznana.

  • Na podstawie zaobserwowanych wyników w próbce możemy przedstawić graficznie w układzie współrzędnych jedynie empiryczną linię regresji zmiennej Y względem zmiennej X.


Rysunek 7 empiryczna linia regresji zmiennej y wzgl dem x
Rysunek 7. Empiryczna linia regresji zmiennej Y względem X charakteryzujących wielkość gospodarstw i spożycie mleka

  • Empiryczna linia regresji zmiennej Y względem zmiennej X jest linią łamaną powstałą przez połączenie punktów o współrzędnych:

    czyli:

    (cecha niezależna, odpowiadająca jej średnia warunkowa)

  • Wykres empirycznej linii regresji pozwala postawić hipotezę na temat typu funkcji matematycznej


Rysunek 8 i 9 wykresy rozrzutu punkt w empirycznych sugeruj cy liniow regresj y wzgl dem x
Rysunek 8 i 9. Wykresy rozrzutu punktów empirycznych sugerujący liniową regresję Y względem X

● Wykres rozrzutu punktów empirycznych sporządzony na podstawie obserwacji na zmiennych X i Y sugeruje, że regresja zmiennej Y względem Y jest liniowa.

● Inaczej - zakładamy, że średnie w warunkowych rozkładach zmiennej Y są liniową funkcją zmiennej X, czyli funkcją o postaci:

(postać liniowa funkcji regresji I rodzaju).

● Składnik losowy w równaniach regresji pełni rolę błędu przypadkowego, zakłócającego funkcyjny związek między wartościami zmiennej objaśnianej a wartościami zmiennej objaśniającej.

●Składnik losowy jest w istocie pewną zmienna losową o odpowiednim rozkładzie prawdopodobieństwa


Rysunek 10 wykres rozrzutu punkt w empirycznych oraz prosta regresji i rodzaju
Rysunek 10. Wykres rozrzutu punktów empirycznych oraz prosta regresji I rodzaju

  • Szukamy takiej prostej, by najlepiej „pasowała” do punktów na wykresie.

  • Prosta określona będzie za pomocą parametrów: - współczynnika kierunkowego 1 oraz wyrazu wolnego 0.

  • Stopień tego dopasowania możemy oceniać na podstawie wielkości odchyleń punktów reprezentujących obserwowane wartości zmiennej Y od prostej.


Rysunek 10 i 11 ilustracja metody najmniejszych kwadrat w
Rysunek 10 i 11. Ilustracja metody najmniejszych kwadratów prosta regresji I rodzaju

  • Do poszukiwania najlepiej dopasowanej prostej stosuje się kryterium minimalizacji sumy kwadratów odchyleń.

  • Metoda wyznaczania parametrów prostej oparta na tym kryterium nosi nazwę metody najmniejszych kwadratów (MNK).

  • Stosując MNK wyznacza się na podstawie danych (xi, yi), i=1,2,…, n, parametry 0 i 1 prostejtak, by suma kwadratów odchyleń yi od 0 +1xi była najmniejsza:


Wyznaczanie parametr w prostej regresji
Wyznaczanie parametrów prostej regresji prosta regresji I rodzaju

  • Wyrażenie S przyjmuje najmniejszą wartość dla:


Oszacowaniem funkcji regresji Y względem X w populacji generalnej jest funkcja regresji y względem x w próbie losowej (zwana aproksymantą) mająca następującą postać:


ad