1 / 80

Přednáška 6

Přednáška 6. Výběrové charakteristiky, Úvod do teorie odhadu Výběrové charakteristiky parametry populace vs. výběrové charakteristiky limitní věty další rozdělení pravděpodobnosti ( Pearsonovo , Studentovo, Fisher-Snedecorovo ) Úvod do teorie odhadu bodové odhady vs. intervalové odhady

cleave
Download Presentation

Přednáška 6

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Přednáška 6 Výběrové charakteristiky, Úvod do teorie odhadu • Výběrové charakteristiky • parametry populace vs. výběrové charakteristiky • limitní věty • další rozdělení pravděpodobnosti (Pearsonovo, Studentovo, Fisher-Snedecorovo) • Úvod do teorie odhadu • bodové odhady vs. intervalové odhady • vlastnosti bodových odhadů • intervalové odhady • jednovýběrové • rozdílů, resp. podílů, parametrů dvou populací

  2. Princip statistické indukce

  3. Výběrové charakteristiky

  4. Výběrové charakteristiky • Parametry populace (obvykle pro jejich značení používáme symboly řecké abecedy) jsou konstanty. • Charakteristiky výběru (obvykle značíme latinkou) jsou obvykle různé – v závislosti na pořízeném výběru. Jsou to náhodné veličiny.

  5. Variabilita výběrových charakteristik Variabilitu výběrových charakteristik ovlivňují tři faktory: • rozsah populace , • rozsah výběru , • způsob získání náhodného výběru. Je-li rozsah populace mnohem větší než rozsah výběru , pak variabilita výběrových charakteristik je obvykle zhruba stejná jak pro výběry s opakováním, tak pro výběry bez opakování.

  6. Rozdělení výběrového průměru • V appletu Rozdělení průměru (java) sledujte vliv rozdělení populace a rozsahu výběru na rozdělení průměru. • Vlastnosti výběrového průměru

  7. Limitní větyaneb popis pravděpodobnostních modelů pro případ rostoucího počtu realizací náhodného pokusu

  8. Slabý zákon velkých čísel Mějme nekonečný náhodný výběr z rozdělení se střední hodnotou a konečným rozptylem, kde jsou nekorelované náhodné veličiny. Potom platí, že výběrový průměr vypočítaný z prvních n pozorování se pro blíží ke střední hodnotě , což zapisujeme .

  9. Centrální limitní věta Jsou-li nezávislé náhodné veličiny se stejnou střední hodnotou a se stejným konečným rozptylem, pak výběrový průměr má při dostatečně velkém počtu pozorování přibližně normální rozdělení, ať už pocházejí z libovolného rozdělení. Centrální limitní větu zapisujeme nebo . • Předpoklady CLV: • nezávislé náhodné veličiny , • , • ; , • (v praxi, , výběr neobsahuje odlehlé pozorování).

  10. Centrální limitní věta • Vlastnosti výběrového průměru Vliv rozsahu výběru na graf hustoty pravděpodobnosti výběrového průměru

  11. Životnost elektrického holicího strojku EHS má exponenciální rozdělení se střední hodnotou 2 roky. Určete pravděpodobnost, že průměrná životnost 150 prodaných holicích strojků EHS bude vyšší než 27 měsíců. Řešení: … průměrná životnost 150 holících strojků EHS , tj.

  12. Důsledky centrální limitní věty (1) • Rozdělení součtu náhodných veličin Nechť: • nezávislé náhodné veličiny , • , • ; , • (v praxi, , výběr neobsahuje odlehlé pozorování), pak .

  13. Výletní člun má nosnost 5000kg. Hmotnost cestujících je náhodná veličina se střední hodnotou 70kg a směrodatnou odchylkou 20kg. Kolik cestujících může člunem cestovat, aby pravděpodobnost přetížení člunu byla menší než 0,001? Řešení: … celková hmotnost n cestujících > >… řešení je dokončeno v Úvod do statistiky, str. 72-73.

  14. Důsledky centrální limitní věty (2) p Důkaz: • Nechť , pak. • Dle CLV: , tj. . Relativní četnost p má pro dostatečně velké výběry přibližně normální rozdělení s parametry . Výběry považujeme obvykle za dostatečně velké v případě, že .

  15. Rozdíl průměrů Mějme náhodný výběr z rozdělení se střední hodnotou a náhodný výběr z rozdělení se střední hodnotou . Dále nechť jsou splněny následující předpoklady: • Rozsah každé z populací je dostatečně velký vzhledem k rozsahu příslušného výběru . • Platí předpoklady CLV, zejména to, že každý z výběrů pochází z normálního rozdělení nebo je dostatečně velký (za dostatečně velké obvykle považujeme výběry s rozsahem větším než 30). Pak: • . Dokažte!

  16. Rozdíl relativních četností Výběrový průměr vypočítaný z prvních pozorování náhodného výběru z udává relativní četnost jevu Aa značíme ji . Obdobně vypočítaný z prvních pozorování náhodného výběru z udává relativní četnost jevu B a značíme ji . Dále nechť: • Rozsah každé z populací je dostatečně velký vzhledem k rozsahu příslušného výběru . • Výběry z obou populací jsou dostatečně velké na to, aby pro modelování rozdílu mezi relativními četnostmi mohlo být použito normální rozdělení. Výběry jsou obvykle považovány za dostatečně velké v případě, že . Pak: • . Dokažte!

  17. Spojitá rozdělení náhodné veličinymající využití v metodách statistické indukce

  18. K čemu potřebujeme znát výběrová rozdělení? • Výběrová rozdělení nacházejí uplatnění při odhadech střední hodnoty a pravděpodobnosti, resp. jejich rozdílů nebo při testování hypotéz o těchto parametrech. Při odhadech rozptylu, poměru rozptylů, odhadech střední hodnoty v případě, že máme k dispozici pouze malý výběr, který nepochází z normálního rozdělení, a v dalších metodách statistické indukce nacházejí uplatnění tři důležitá spojitá rozdělení: • - rozdělení, • Studentovo rozdělení, • Fisher– Snedecorovorozdělení.

  19. - rozdělení (Pearsonovo rozdělení) Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s  stupni volnosti, což značíme . , pak Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

  20. - rozdělení (Pearsonovo rozdělení) Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s  stupni volnosti, což značíme . , pak Vlastnosti - rozdělení: • ; . Pro • Předpokládejme, že provedeme náhodný pokus spočívající v náhodném výběru o rozsahu n z populace podléhající normálnímu rozdělení s rozptylem . Pro uvedený výběr určíme výběrovou směrodatnou odchylku s. Lze ukázat, že :

  21. - rozdělení (Pearsonovo rozdělení) Mějme nezávislé náhodné veličiny , z nichž každá má normované normální rozdělení. Součet čtverců těchto náhodných veličin, tj. náhodná veličina má rozdělení (čteme „chí-kvadrát“) s  stupni volnosti, což značíme . , pak Použití - rozdělení: • Vlastnosti, žese využívá k testování toho, zda rozptyl základního souboru s normálním rozdělením je roven , resp. k odhadování směrodatné odchylky ZS s norm. rozdělením. • - rozdělení se používá pro ověření nezávislosti kategoriálních proměnných (test nezávislosti v kontingenční tabulce). • Pokud testujeme, zda náhodné veličiny (naměřená data) pocházejí z určitého rozdělení, můžeme také s úspěchem použít - rozdělení. Tento test je znám pod názvem "test dobré shody".

  22. Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Pro ověřování kvality výroby bude testováno 20 žárovek. Jaká je pravděpodobnost, že při tomto testu bude zjištěna směrodatná odchylka životnosti vyšší než 7 měsíců? Řešení: S … výběrová směrodatná odchylka Neznáme rozdělení S! ALE! Nechť . Pak . V našem případě: S využitím výpočetního appletu vybrana_rozdeleni_pravdepodobnosti.xlsx.

  23. Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s  stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s  stupni volnosti, což značíme . Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením , její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

  24. Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s  stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s  stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: • ; . Pro • Pokud náhodné veličiny X1,X2,...,Xn mají normální rozdělení a jsou navzájem nezávislé, pak náhodná veličina .

  25. Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s  stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s  stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: • Mějme dva výběry z normálního rozdělení se stejným rozptylem. Pak .

  26. Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s  stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s  stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: • Mějme dva výběry z normálního rozdělení s různýmirozptyly. Pak kde .

  27. Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s  stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s  stupni volnosti, což značíme . Vlastnosti Studentova rozdělení: • Mějme dva výběry z normálního rozdělení s různýmirozptyly. Pak kde .

  28. Studentovo (t) rozdělení Uvažujme dvě nezávislé náhodné veličiny: Z a . Náhodná veličina Z má normované normální rozdělení, náhodná veličina V má - rozdělení s  stupni volnosti. Potom náhodná veličina T, , má Studentovo t rozdělení s  stupni volnosti, což značíme . Použití Studentova rozdělení: • modelování založené na analýze malýchvýběrů, • testování hypotéz o střední hodnotě, pokud je rozptyl základního souboru neznámý a výběr pochází z normálního rozdělení, • testování hypotéz o shodě středních hodnot, • analýza výsledků regresní analýzy.

  29. Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) Jak na to? Nechť X je NV, jejíž rozdělení známe. Pak . Zvolíme-li , pak

  30. Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) Jak na to? Nechť . Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti.

  31. Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti. (Uvědomte si, že .) Po úpravě: Po dosazení:

  32. Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) Po dosazení: , kde je p-kvantil Studentova rozdělení s (n-1) stupni volnosti. (Uvědomte si, že .) Po úpravě: Po dosazení:

  33. Útvar kontroly podniku Edison testoval životnost žárovek. Kontroloři vybrali z produkce podniku náhodně 50 žárovek a došli k závěru, že průměrná doba života (přesněji řečeno výběrový průměr doby života) těchto 50 žárovek je 950 hodin a příslušná výběrová směrodatná odchylka doby života je 100 hodin. Odhadněte interval, v němž s pravděpodobností 0,95 leží střední životnost testovaných žárovek. (Předpokládejte, že životnost žárovek lze modelovat normálním rozdělením.) Řešení: … střední životnost žárovek (konstanta, ale nedokážeme ji přesně určit) S pravděpodobností 95% se hledaná střední hodnota životnosti žárovek pohybuje v rozmezí 921,7h až 978,3h.

  34. Fisher-Snedecorovo (F) rozdělení Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina Fisherovo-Snedecorovorozdělení o m a n stupních volnosti, což značíme . Sledujte vliv stupňů volnosti na tvar rozdělení NV s rozdělením, její střední hodnotu a rozptyl. (Spojitá rozdělení – excel)

  35. Fisher-Snedecorovo (F) rozdělení Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina Fisherovo-Snedecorovorozdělení o m a n stupních volnosti, což značíme . Vlastnosti Fisherova-Snedecorova rozdělení: • Mějme dva výběry z normálního rozdělení( a jsou příslušné výběrové rozptyly.Pak

  36. Fisher-Snedecorovo (F) rozdělení Mějme dvě nezávislé náhodné veličiny V a W s rozdělením . První z nich má počet stupňů volnosti m, druhá má počet stupňů volnosti n (obecně mají různý počet stupňů volnosti). Pak má náhodná veličina Fisherovo-Snedecorovorozdělení o m a n stupních volnosti, což značíme . Použití Fisherova-Snedecorova rozdělení: • k testu o shodě rozptylů dvou základních souborů, • k testům o shodě středních hodnot více než dvou základních souborů, v tzv. analýze rozptylu, • k testům v regresní analýze.

  37. Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2? Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2 Za předpokladu, že oba vzorky jsou výběrem z normálního rozděleníplatí

  38. Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2? Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2 Za předpokladu, že oba vzorky jsou výběrem z normálního rozděleníplatí

  39. Firma Edison vyrábí žárovky Ed. Životnost těchto žárovek je průměrně 5 let se směrodatnou odchylkou 6 měsíců. Uvedené informace specifikujeme: Žárovky jsou vyráběny na dvou linkách. Předpokládejme, že obě linky mají srovnatelné parametry, tj. že průměrná životnost a variabilita životnosti žárovek Ed vyrobených ve firmě Edison nezávisí na tom, na jaké lince byly vyrobeny. Pro ověření kvality výroby bude testována životnost 20 žárovek z linky 1 a 30 žárovek z linky 2. Jaká je pravděpodobnost, že u vzorku z linky 1 bude zjištěn více než dvojnásobný rozptyl oproti rozptylu zjištěnému u vzorku z linky 2? Řešení: … rozptyl životnosti zjištěný u vzorku z linky 1 … rozptyl životnosti zjištěný u vzorku z linky 2 (dle vybrana_rozdeleni_pravdepodobnosti.xlsx) Za předpokladu, že oba vzorky jsou výběrem z normálního rozděleníplatí

  40. Úvod do teorie odhadu

  41. Lze určit střední hodnotu životnosti el. součástek? Lze určit účinnost léku? Lze určit, který výrobce vyrábí kvalitněji? Neznáme-li rozdělení náhodné veličiny X, pak parametry náhodné veličiny X nelze většinou přesně určit, lze je jen odhadnout.

  42. Jak odhadnout parametry populace? • Bodový odhad - parametr základního souboru aproximujeme jediným číslem • Intervalový odhad – parametr populace aproximujeme intervalem, v němž s velkou pravděpodobností příslušný populační parametr leží.

  43. Bodový odhad Mějme náhodný výběr z určitého rozdělení, které závisí na neznámém parametru . Odhadem parametru je pak výběrová charakteristika , která nabývá hodnot „blízkých“ neznámému parametru . Vybrané populační parametry a jejich bodové odhady: konstanty obecně značíme náhodné veličiny obecně značíme

  44. Vlastnosti „dobrého“ bodového odhadu • nestrannost (nevychýlenost, nezkreslenost) • odhad je nestranný, jestliže se jeho střední hodnota rovná hledanému parametru, tj. (viz příklad 4.1, Úvod do statistiky) • vydatnost (eficience) • nestranný odhad, jehož rozptyl je nejmenší mezi rozptyly všech nestranných odhadů příslušného parametru, se nazývá nejlepší nestranný (vydatný, eficientní) odhad • konzistence • odhad je konzistentní, pokud se s rostoucím rozsahem výběru zpřesňuje, k čemuž dochází pokud,, tj. pokud se rozdělení odhadu T s rostoucím rozsahem výběru „zužuje“ kolem hledaného parametru .

  45. Interval spolehlivosti vs. intervalový odhad Interval spolehlivosti(konfidenční interval) pro parametr se spolehlivostí , kde , je taková dvojice statistik , že . Intervalový odhad je jednou z realizací intervalu spolehlivosti. V čem spočívá výhoda intervalových odhadů vůči bodovým odhadům? Přinášejí informaci o nejistotě (nepřesnosti) odhadu.

  46. Co je co v terminologii intervalových odhadů? hledaný parametr (konstanta, kterou nejsme schopni přesně určit) spolehlivost odhadu, tj. pravděpodobnost s níž hledaný parametr leží v intervalu meze intervalu spolehlivosti (náhodné veličiny)

  47. Co to znamená, že spolehlivost odhadu je 1-? Simulace intervalových odhadů střední hodnoty (spolehlivost 0,95) získaných na základě opakovaných výběrů o rozsahu 30 z populace se střední hodnotou 100. 6 intervalů ze 100 neobsahuje skutečnou střední hodnou.

  48. Jaké máme požadavky na interval spolehlivosti? • Co největší spolehlivost odhadu. • Co nejmenší šířka intervalu spolehlivosti. (S rostoucí šířkou intervalového odhadu klesá významnost získané informace.) V appletu Intervalové odhady (jar) sledujte vliv spolehlivosti odhadu a rozsahu výběru na intervalový odhad. Závěr: • S rostoucí spolehlivostí se zvětšuje šířka intervalového odhadu a tím klesá významnost takto získané informace. Nutnost kompromisu • S rostoucím rozsahem výběru se šířka intervalového odhadu snižuje. hladina významnosti

  49. Jaké jsou typy intervalů spolehlivosti? • oboustranné Tyto dvě podmínky zaručují, že. • jednostranné(odhadujeme-li například délku života nějakého zařízení, je pro nás důležitá pouze dolní mez) • levostranné: • pravostranné :

  50. Jak najít intervalový odhad parametru Obecně: • Zvolíme vhodnou výběrovou charakteristiku , jejíž rozdělení známe. (Nechť jsou p-kvantily náhodné veličiny .) , . Vždyť jsme již něco takového počítali! (str. 27-30 této prezentace)

More Related