1 / 55

Statistika

Statistika. Ing. Jan Popelka, Ph.D . odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka @ ujep.cz WWW: http://most. ujep.cz / ~ popelka. Analýza závislostí. Analýza závislostí.

joanne
Download Presentation

Statistika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistika Ing. Jan Popelka, Ph.D.odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW:http://most.ujep.cz/~popelka

  2. Analýza závislostí

  3. Analýza závislostí Elementární metody popisu závislostí • Úvod do zkoumání závislostí mezi jevy. • Závislost dvou slovních proměnných. • Závislost číselné a slovní proměnné.

  4. Analýza závislostí • Koncentrace znečišťujících látek v řece je závislá na teplotě vody. Jednostranná závislost Příčina působí na důsledek, ale důsledek již zpětně neovlivňuje příčinu. Oboustranná závislost Nelze jednoznačně určit příčinu a důsledek. Vazba je vzájemná, jeden jev ovlivňuje druhý a druhý zpětně působí na první. Závislost mezi úrovní vzdělání a vztahem k životnímu prostředí. Závislost mezi počty predátorů a množstvím kořisti na vymezeném území. Závislost mezi výškou a hmotností jedince.

  5. Analýza závislostí V případě jednostranné závislosti, je příčina tzv. vysvětlující proměnnou (nebo nezávislou proměnnou). V případě jednostranné závislosti, je důsledek tzv. vysvětlovanou proměnnou(nebo závislou proměnnou). ! Příklad. Sledujeme závislost koncentrace znečišťujících látek v řece na teplotě vody.Teplota ovlivňuje koncentraci, ale opačně nelze tvrdit, se teplota vody mění v závislosti na koncentraci. Teplota je vysvětlující proměnná. Koncentrace znečišťujících látek je vysvětlovaná proměnná.

  6. Analýza závislostí V případě oboustranné závislosti nelze vysvětlující a vysvětlovanou proměnnou jednoznačně určit. ! Příklad. Co je příčina a co důsledek při posuzování vztahu počtu predátorů a množství kořisti na vymezeném území? Různé hodnoty počtu predátorů lze vysvětlit změnami v množství kořisti. Ale stejně tak lze různé hodnoty v množství kořisti vysvětlit změnami v počtu predátorů. Nelze jednoznačně určit, která proměnná je vysvětlující a která vysvětlovaná. Obě se vzájemně ovlivňují.

  7. Analýza závislostí Závislost funkční (pevná) Určité hodnotě jedné proměnné odpovídá jen jedna určitá hodnota jiné proměnné. Závislost lze vyjádřit funkčním vztahem mezi závislou a nezávislou proměnnou y = f(x). Příklad. Závislost mezi dobou jízdy a ujetými kilometry, pokud vozidlo jede konstantní rychlostí 75 km/h. Každou hodnotu lze vypočítat podle funkce: vzdálenost = rychlost * čas. !

  8. Analýza závislostí Závislost funkční (pevná) Důsledek je určen jednou nebo několika málo příčinami, které lze jednoznačně určit. Nepůsobí zde žádné neznámé nebo náhodné vlivy. Nejvíce ve fyzice, mechanice, chemii a některých oblastech biologie.

  9. Analýza závislostí Závislost stochastická (volná) „Dvě náhodné proměnné jsou stochasticky závislé, jestliže jsou změny hodnot jedné z nich doprovázeny změnami podmíněného pravděpodobnostního rozdělení druhé z nich.“ Určité hodnotě jedné proměnné může odpovídat více hodnot jiné proměnné, ale jejich výskyt se řídí určitým pravděpodobnostním rozdělením. Příklad. Závislost koncentrace přízemního ozónu na slunečním záření. !

  10. Analýza závislostí Závislost stochastická (volná) Důsledek je určen velkým počtem příčin, jejichž projev nelze plně postihnout. Příčiny mohou být i neznámé, může působit i náhoda. Proto se sleduje vliv jen známých jevů a těch které působí nejvíce. Nejvíce v biologii, ekonomii, sociologii. Příklad: Na výšku člověka působí řada vlivů – dědičnost, věk, vliv prostředí, strava a řada dalších vlivů, které ani nebyly odhaleny. Příklad: Na koncentraci přízemního ozónu působí intenzita slunečního záření, množství emisí NOx, teplota, tlak, rychlost větru atd. ! !

  11. Analýza závislostí Nezávislost Proměnná se mění pouze náhodně bez ohledu na hodnotu druhé proměnné. Střední hodnota jedné veličiny se nemění, i když se hodnoty druhé veličiny mění. Příklad: závislost mezi hmotností řidiče a počtem v automobilu ujetých kilometrů za včerejší den. !

  12. Analýza závislostí Statistické postupy a metody Některé se soustřeďují jen na zjištění, zda jsou proměnné závislé či nikoliv. Jiné pak slouží ke konkrétní specifikaci závislosti. Měří těsnost závislosti (pomocí koeficientů), nebo se snaží najít formu závislosti (např. pomocí konkrétní funkce, jejímž zobrazením je graf závislosti).

  13. Závislost dvou slovních proměnných ! Příklad: Byl proveden průzkum, který se zabýval závislostí mezi vzděláním respondentů a jejich názorem na výstavbu nové spalovny komunálního odpadu. • Dotázáno bylo celkem 291 respondentů. • Byly sledovány tři kategorie vzdělání: • základní, • středoškolské , • Vysokoškolské. • Objevily se tři formy názoru na výstavbu: • souhlasím , • nevím, • nesouhlasím. • Dotázáno bylo celkem 291 respondentů.

  14. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Výsledky průzkumu. Jedná se o tzv. kontingenční tabulku. V tabulce jsou absolutní četnosti. Tedy počet dotázaných se základním vzděláním, kteří souhlasí je 63. Celkový počet nesouhlasících respondentů je 115.

  15. Závislost dvou slovních proměnných Kontingenční tabulka je dvourozměrná tabulka se slovními proměnnými. Korelační tabulka je dvourozměrná tabulka s číselnými proměnnými, které jsou popsány buďto hodnotami proměnných nebo intervaly hodnot proměnných. Např.: Korelační tabulka Sňatky podle vzájemného věku snoubenců v roce 2008 (zdroj: Český statistický úřad). Čtyřpolní tabulka je specifická tabulka, kde obě proměnné mají jen dvě obměny (může být jak kontingenční, tak i korelační).

  16. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Obecně lze kontingenční tabulku absolutních četností zapsat: nij řádek sloupec

  17. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Názornější představu o průzkumu poskytují relativní četnosti ! 22% dotázaných jsou lidé se základním vzděláním, kteří souhlasí s výstavbou. Celkový podíl nesouhlasných odpovědí je 40% z celkového počtu respondentů.

  18. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Obecně lze kontingenční tabulku relativních četností zapsat: pij pij jsou tzv.sdružené relativní četnosti. pij = nij / n pi.a p.j jsou tzv.okrajové relativní četnosti. řádek sloupec

  19. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Tabulka podmíněných relativních četností(řádky tvoří 100%):

  20. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Tabulka podmíněných relativních četností (řádky tvoří 100 %): 64 % respondentů se základním vzdělánímsouhlasí, 6 % neví a 30 % nesouhlasí. Z celkového počtu dotázaných 40 % souhlasí, 20 % neví a 40 % nesouhlasí s výstavbou.

  21. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Tabulka podmíněných relativních četností(sloupce tvoří 100%):

  22. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Tabulka podmíněných relativních četností (sloupce tvoří 100 %): Skladba respondentů, kteří odpovídali variantu Nevím: 10 % základní, 34 % středoškolské a 56 % vysokoškolské vzdělání. Z celkového počtu dotázaných má 34 % základní, 35 % středoškolské a 31 % vysokoškolské vzdělání.

  23. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Tabulka podmíněných relativních četností: Při pohledu na relativní četnosti se zdá, že rozložení není příliš rovnoměrné. Větší podíl respondentů se základním vzděláním souhlasí, zatímco vysokoškolácispíše neví nebo nesouhlasí.

  24. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Pokud nejsou četnosti rovnoměrně rozloženy, mohl by to být signál, že existují rozdíly mezi preferencemi jednotlivých deníků a že existuje závislost mezi vzděláním a preferovaným deníkem. Jde však pouze o průzkum, takže je nutno ověřit testem, zda závislost skutečně existuje.

  25. Závislost dvou slovních proměnných Závislost lze popsat pomocí testu dobré shody, který určí zda závislost je či není (neříká nic o tom, jak je závislost velká). Dále pomocí kontingenčních koeficientů, které určí i jak je závislost silná. Obě metody vycházejí z porovnání empirických četností nij s hypotetickými četnostmiψij, které reprezentují rovnoměrné rozložení četností v tabulce a znázorňují situaci, kdy jsou obě proměnné nezávislé.

  26. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Tabulka hypotetických četnostíψij. Každá hodnota ψij je součin celkového součtu v odpovídajícím řádku ni. s celkovým součtem v odpovídajícím sloupci n.j, děleno celkovým počtem prvků v tabulce n.

  27. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Tabulka hypotetických četnostíψij. Pokud by byly proměnné nezávislé, pak by z celkového počtu 291 respondentů mělo 39 souhlasit a mít základní vzdělání a 39 nesouhlasit a mít základní vzdělání.Ve skutečnosti jsou tyto hodnoty ovšem 63 resp. 30, tedy je zde rozdíl! Test ověří, zda dostatečný pro prokázání závislosti.

  28. Závislost dvou slovních proměnných Test dobré shody H0: proměnné jsou nezávislé HA: proměnné jsou závislé Testovací statistika Kritický obor r ... počet řádků tabulky s ... počet sloupců tabulky MS Excel:= CHITEST (oblast absolutních četností; oblast hypotetických četností) Online kalkulátory: http://www.quantpsy.org/chisq/chisq.htmhttp://vassarstats.net/newcs.html

  29. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Test dobré shody = (n11 – ψ11)2/ψ11 = = (63 – 39,1)2/39,1= 14,57 Tabulka obsahuje pomocné výpočty pro test dobré shody. Hodnota testovací statistiky G = 56,96, jde o součet všech buněk výše uvedené tabulky!

  30. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Test dobré shody H0: souhlas s výstavbou spalovny nezávisí na vzdělání HA: souhlas s výstavbou spalovny závisí na vzdělání Hladina významnosti α= 0,05 Testovací statistika G = 56,96 Kritický obor Hodnota testovací statistiky padne do kritického oboru, takže zamítáme hypotézu o nezávislosti a přijímáme hypotézu, že souhlas s výstavbou spalovny skutečně závisí na vzdělání respondentů.

  31. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Test dobré shody H0: souhlas s výstavbou spalovny nezávisí na vzdělání HA: souhlas s výstavbou spalovny závisí na vzdělání Hladina významnosti α= 0,05 P-hodnota vypočtená funkcí CHITEST p = 1,25494E-11 P-hodnota je výrazně blízká nule, a tedy menší než α= 0,05, takže zamítáme hypotézu o nezávislosti a přijímáme hypotézu, že souhlas s výstavbou spalovny skutečně závisí na vzdělání respondentů.

  32. Závislost dvou slovních proměnných Podmínky použití testu dobré shody • Dostatečný počet pozorování – hypotetické četnosti musejí být ve všech polích tabulky > 5 • Pokud není podmínka splněna, může být řešením sloučení souvisejících kategorií. ! Tabulka s nedostatečně obsazenými políčky Tabulka po sloučení souvisejících kategorií

  33. Závislost dvou slovních proměnných Kontingenční koeficienty • Cramérův – nabývá hodnoty <0;1> Čím blíže je jedné, tím je závislost silnější. n ... počet pozorování h ... je menší z dvojice čísel r-1, s-1 Online kalkulátor: http://vassarstats.net/newcs.html • Pearsonův– nabývá hodnoty od 0,horní mez se s rostoucím h blíží 1.Čím blíže je jedné, tím je závislost silnější.

  34. Závislost dvou slovních proměnných ! Příklad: Byl proveden malý průzkum ... Kontingenční koeficienty • Cramérův Podle Cramérova koeficientu se jedná o slabou závislost. • Pearsonův Podle Pearsonova koeficientu se jedná o slabou závislost.

  35. Závislost dvou slovních proměnnýchDalší testy – speciální případy Čtyřpolní tabulka (2x2) Chí-kvadrát test dobré shody s Yatesovou korekcí Online kalkulátory: • http://graphpad.com/quickcalcs/contingency1.cfm • http://www.quantpsy.org/chisq/chisq.htm Čtyřpolní tabulka (2x2) s malým obsazením políček (<5) Fisherův exaktní test Online kalkulátory: • http://www.vassarstats.net/tab2x2.html • http://graphpad.com/quickcalcs/contingency1.cfm

  36. Závislost dvou slovních proměnnýchDalší testy – speciální případy Fisherův exaktní test Příklad: Ochrana budek chráněného ptactva proti predaci ! Ho: Predace budek není závislá na aplikaci ochrany, tedy ochrana nefunguje. Ha: Predace budek se po aplikaci ochrany sníží, tedy ochrana funguje. P-hodnota (online kalkulátor) = 0,0075 P-hodnota < hladina významnosti (α= 0,05) zamítáme Ho, ochrana snižuje predaci budek.

  37. Závislost dvou slovních proměnných Další testy – speciální případy Čtyřpolní tabulka dvou závislých výběrů popsaných dichotomickými proměnnými (nabývají pouze dvou hodnot: ano x ne) McNemarův test Online kalkulátory: • http://www.stattools.net/McNemar_Pgm.php • http://www.vassarstats.net/propcorr.html

  38. Závislost dvou slovních proměnnýchDalší testy – speciální případy McNemarův test Příklad: Postoj lidí ke stavbě spalovny komunálního odpadu před a po odborné přednášce ! Ho: Počet lidí s pozitivní změnou postoje je pouze náhodně odlišný od počtu s negativní změnou postoje, tedy přednáška nepřinesla významné zlepšení postojů. Ha: Počet lidí s pozitivní změnou je vyšší než počet se změnou negativní, tedy přednáška přinesla významné zlepšení postojů. P-hodnota (online kalkulátor) = 0,00275 P-hodnota < hladina významnosti (α= 0,05) zamítáme Ho, přednáška přinesla významné zlepšení postojů.

  39. Závislost dvou slovních proměnnýchDalší testy – speciální případy Kontingenční tabulka dvou závislých výběrů Cochranův Q test Kontingenční tabulka typu NxN dvou závislých výběrů Bowkerův test

  40. Závislost dvou slovních proměnnýchShrnutí testů

  41. Závislost číselné a slovní proměnné ! Příklad: Byly sledovány emise CO2 čtyř bloků uhelné elektrárny ve vybraných letech (v tis. tun za rok).

  42. Závislost číselné a slovní proměnné ! Příklad: Byly sledovány emise CO2 … Zajímá nás, zda jsou emise ze všech bloků stejné, nebo zda závisejí na bloku. Neboli zda číselná proměnná (emise) závisí na slovní proměnné (blok elektrárny). Závislost se zjišťuje pomocí analýzy rozptylu - ANOVA (viz minulá přednáška). MS EXCEL: Data – Analýza – Analýza dat – Anova: jeden faktor Online kalkulátory: http://vassarstats.net/anova1u.html (do 5 skupin) http://www.physics.csbsju.edu/stats/anova.html

  43. Závislost číselné a slovní proměnné ! Příklad: Byly sledovány emise CO2 … Původní hypotéza analýzy rozptylu se vztahuje k průměrným emisím: H0: μ1 = μ2 = μ3= μ4(všechny průměry se rovnají) HA: alespoň dva průměry se nerovnají Je ekvivalentní s hypotézami: H0: Emise nezávisejí na bloku elektrárny. HA: Emise závisejí na bloku elektrárny. Pokud totiž platí H0, tak jsou průměrné emise stejné a jejich změny ovlivňuje něco jiného než je blok elektrárny.

  44. Závislost číselné a slovní proměnné Proč název analýza rozptylu? Rozkládá celkovou variabilitu na meziskupinovou a vnitroskupinovou

  45. Závislost číselné a slovní proměnné Testovací statistika F je podíl meziskupinové a vnitroskupinové variability. Pokud je meziskupinová variabilita výrazně vyšší než vnitroskupinová, pak zamítáme nulovou hypotézu o nezávislosti. Kritický obor testu: F ≥ F1-α(k-1;n-k)}

  46. Závislost číselné a slovní proměnné Podmínky analýzy: • výběry pocházejí z normálního rozdělení nebo n>30 • rozptyly všech souborů jsou stejné σ21 = σ22= σ23 = σ24 ... = σ k ověření postačuje pravidlo: max si / min si ≤ 3. Pokud nejsou podmínky splněny lze použít Kruskal-Walisův test (neparamerický test shody mediánů – viz přednáška 7).

  47. Závislost číselné a slovní proměnné ! Příklad: Byly sledovány emise CO2 … Do políčka „Vstupní oblast“ zadáváme všechny sloupce včetně popisků. Jednotlivé skupiny jsou ve sloupcích proto zvolíme: „Sdružit: Sloupce“. Data byla vložena včetně popisků proto zaškrtneme „Popisky v prvním řádku“.

  48. Závislost číselné a slovní proměnné ! Příklad: Byly sledovány emise CO2 … Testovací statistika F Kritický obor Protože platí p-hodnota < α(4,3·10-6> 0,05), zamítáme nulovou hypotézu o nezávislosti proměnných.

  49. Závislost číselné a slovní proměnné ! Příklad: Byly sledovány emise CO2 … Ověření podmínky rovnosti rozptylů max si / min si ≤ 3. Maximální si je pro blok C (si = 241,468). Minimální si je pro blok A (si = 111,803). 241,468/ 111,803 = 2,2. Podíl je menší než 3, rozptyly lze považovat za rovné a test ANOVA lze použít.

  50. Závislost číselné a slovní proměnné ! Příklad: Byly sledovány emise CO2 … Test vede k závěru, že průměrné emise CO2 ve čtyřech sledovaných blocích uhelné elektrárny nejsou stejné, tj. jejich výše jezávislá na bloku. Závislost mezi číselnou proměnnou (emise) a slovní proměnnou (blok elektrárny) se podařilo prokázat.

More Related