1 / 28

Úvod do pravděpodobnosti a statistiky

Úvod do pravděpodobnosti a statistiky. (UVMATST). Úloha statistiky. „Statistika je věda, která se zabývá kvantitativní stránkou hromadných jevů.“ V současnosti jsme zahlceni množstvím informací, které jsou často v číselné podobě.

luz
Download Presentation

Úvod do pravděpodobnosti a statistiky

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Úvod do pravděpodobnosti a statistiky (UVMATST)

  2. Úloha statistiky „Statistika je věda, která se zabývá kvantitativní stránkou hromadných jevů.“ V současnosti jsme zahlceni množstvím informací, které jsou často v číselné podobě. Snaha vyznat se v tom množství údajů nás vede k tomu, abychom je nahradili pouze několika čísly a přitom uchovali (a dokonce i odhalili) ty informace, jež byly v původních číslech ukryty.

  3. Příklad 1: Věk nezaměstnaných mužů starších 49 let (výběr z CPS-Current Population Survey, USA 1989) 67 53 62 66 53 64 51 63 62 60 66 60 61 56 55 54 55 61 64 63 64 56 63 57 68 67 61 64 66 63 65 61 64 64 64 66 61 64 63 67 60 68 53 68 68 52 62 60 67 57 60 68 63 54 67 61 68 61 68 61 67 61 62 52 61 61 66 61 67 62 65 66 49 66 56 61 62 67 68 56 61 68 61 67 63 60 65 66 60 67 64 56 68 58 63 68 61 68 59 56 68 66 61 58 50 67 55 62 68 60 66 62 68 60 49 63 68 68 52 51 59 65 67 63 63 66 67 57 58 65 66 63 57 67 66 59 67 61 60 63 58 61 53 67 66 65 61 64 61 66 62 60 50 57 60 68 68 65 68 65 65 62 67 68 67 68 60 66 67 62 62 65 55 57 65 64 64 64 57 59 56 68 59 67 54 58 65 57 61 66 52 68 63 54 68 57 68 68 57 64 68 63 67 62 64 67 63 65 61 65 58 58 68 55 63 57 67 62 62 67 58 51 53 60 59 63 58 68 49 65 55 64 58 61 49 62 62 63 58 59 67 54 68 67 64 58 65 66 64 67 60 54 67 68 66 66 53 65 66 55 65 57 57 63 66 62 68 60 62 53 63 68 62 68 65 59 64 65 54 49 64 60 68 61 68 57 65 55 58 68 62 62 60 68 60 62 62 64 65 58 67 51 64 67 66 62 49 63 68 57 62 66 64 61 68 54 65 60 68 54 66 68 66 61 60 63 65 67 66 68 67 55 55 59 60 62 64 65 66 68 64 67 65 49 51 57 65 65 66 65 64 64 62 56 59 62 63 61 66 64 63 67 62 57 58 68 51 64 64 67 66 54 65 49 64 67 67 67 68 68 60 60 68 65 66 59 65 60 62 65 67 62 65 56 58 68 66 63 62 62 53 66 67 62 58 62 68 65 63 66 63 65 65 65 65 57 59 61 66 63 66 64 57 59 64 64 65 67 65 55 49 63 66 68 66 60 64 62 59 63 64 67 50 60 64 58 65 64 59 64 67 62 60 65 67 61 65 64 67 58 65 66 65 67 56 65 67 58 62 63 67 51 65 67 68 68 61 62 68 65 57 67 67 65 64 58 50 68 63 68 60 67 66 49 61 61 64 68 61 66 Tato data na první pohled neříkají nic. Obsahují nepřehledné množství údajů. Je potřeba použít některých statistických metod, abychom tato čísla nahradili pouze několika, přitom však neztratili některé cenné informace v nich obsažené.

  4. Cíl kurzu Cílem tohoto kurzu bude představit základní metody, jež se uplatňují při statistickém zpracování dat a upozornit na jejich případná úskalí.

  5. Základní pojmy • statistické jednotky – jsou předmětem našeho zkoumání (osoby, předměty, výrobky,…) • statistický soubor – tvoří jej statistické jednotky • rozsah souboru – počet statistických jednotek ve statistickém souboru Vždy nutné jasně vymezit, které prvky do statistického souboru patří a které nikoliv!

  6. Základní pojmy • statistický znak – určitá vlastnost statistické jednotky, která nás při statistickém šetření zajímá. Stat. znak musí být zjistitelný u každé jednotky ze statistického souboru! Příklady stat. znakůpro osoby: věk, pohlaví, tělesná výška, výše platu, vzdělání, barva očí, …

  7. Základní dělení statistických znaků • kvantitativní (číselný) znak – hodnota znaku má podobu čísla (věk, tělesná výška, výše platu, …) • kvalitativní (slovní) znak – hodnota znaku se vyjadřuje slovně (pohlaví, vzdělání, barva očí, …)

  8. Další dělení statistických znaků • nominální (názvový) znak – jeho hodnoty není možné (nemá smysl) seřadit (pohlaví, barva očí, …) • ordinální (pořadový) znak – jeho hodnoty je možné seřadit (věk, tělesná výška, výše platu, ale i vzdělání, …) Je jasné, že každý číselný znak je pořadový, existují však slovní znaky, které mohou být pořadové (například různé škály typu: nesouhlasím, částečně nesouhlasím, neutrální postoj, částečně souhlasím, souhlasím, apod.)

  9. Četnosti • četnost – ke každé obměně (hodnotě) statistického znaku je možné uvést kolikrát se ve statistickém souboru vyskytla • rozdělení četností – vznikne tehdy, pokud pro každou z hodnot určitého statistického znaku uvedu její četnost

  10. Rozdělení četností statistický znak hodnoty statistického znaku četnosti

  11. Grafické znázornění četností histogram (sloupcový diagram) polygon četností

  12. Intervalové rozdělení četností • Jaký počet intervalů je optimální? • příliš mnoho – informace je „roztřištěná“ • příliš málo – informace se ztrácí

  13. Histogramy pro věk nezaměstnaných mužů (CPS – 1989)

  14. Optimální počet intervalů • Sturgesovo pravidlo: k = 1 + 3,3 · log n, kde k je počet intervalů a n je rozsah souboru. • V našem případě je n = 500 (výběr CPS představovalo 500 nezaměstnaných mužů), k = 1 + 3,3 · log 500 = 9,9, tj. podle Sturgesova pravidla je optimální počet intervalů 10.

  15. Absolutní a relativní četnosti • absolutní četnost – četnost tak, jak jsme o ni doposud mluvili se nazývá někdy absolutní • relativní četnost – absolutní četnost vztáhnutá na rozsah souboru

  16. Absolutní a relativní četnosti

  17. Statistické charakteristiky úrovně Skupinu dat se budeme snažit nahradit jedinou hodnou, která by měla vyjadřovat typickou hodnotu oné skupiny. • aritmetický průměr • modus • medián

  18. Aritmetický průměr • Zavedeme označení: x – statistický znak,n – rozsah souboru,x1 … xn – hodnoty statistického znaku u prvního až n-tého prvku statistického souboru. Aritmetický průměr se určí podle vzorce

  19. Vážený aritmetický průměr • Upravíme a doplníme značení:x1 … xk – různé hodnoty (možné obměny)statistického znaku n1 … nk – četnosti těchto obměn • Vážený aritmetický průměr se určí podle vzorce

  20. Modus • je hodnota statistického znaku s největší četností (nejčastěji se vyskytující hodnotu statistického znaku v souboru). • značí se

  21. Medián • je prostřední hodnota statistického znaku, jsou-li všechny hodnoty x1 … xn uspořádány podle velikosti • značí se

  22. Medián • Příklad 1: Jsou dány hodnoty 2, 8, 7, 5, 6, 5, 3. Po seřazení máme 2, 3, 5, 5, 6, 7, 8, vidíme, že uprostřed leží číslo 5. Medián je 5. • Příklad 2: Jsou dány hodnoty 11, 18, 13, 12, 19, 15, 12, 21.Po seřazení máme 11, 12, 12, 13,| 15, 18, 19, 21, vidíme, že přímo uprostřed neleží žádná hodnota, ale nejblíže jsou dvě hodnoty 13 a 15. Medián pak definujeme jako jejich aritmetický průměr (13 + 15) : 2 = 14.

  23. Určení mediánu z tabulky četností • Označíme-li n rozsah souboru a z pořadové číslo mediánu, platí jednoduchý vztah: Příklady: • pro n = 7 je po dosazení: 3,5 z 4,5,z toho plyne, že z = 4 a tedy medián je 4. hodnota v pořadí mezi 7 hodnotami. • pro n = 8 je po dosazení: 4 z 5,z toho plyne, že z = 4 nebo z = 5,medián je průměrem ze 4. a 5. hodnoty v pořadí mezi 8 hodnotami.

  24. Některé vlastnosti statistických charakteristik úrovně • Příklad: V tabulce jsou uvedeny platy ve skupině 25 osob. • aritmetický průměr je 23 560 Kč • medián je 18 000 Kč • modus je 13 000 Kč

  25. Některé vlastnosti statistických charakteristik úrovně aritmetický průměr • nemusí se vyskytovat mezi hodnotami • má na něj vliv extrémní hodnota (zvláště při malém rozsahu souboru), pokud se plat 100 000 Kč sníží na 60 000 Kč i průměr podstatně klesne na 21 960 Kč • zakrývá existenci extrémů – je někdy zbytečně vysoký nebo nízký • podprůměrný plat má 18 osob, tj. nemusí ležet přibližně uprostřed • aritmetický průměr se proto vždy má doplnit údajem o variabilitě (viz dále), případně mediánem

  26. Některé vlastnosti statistických charakteristik úrovně medián • většinou se vyskytuje mezi hodnotami • oproti průměru na něj nemá vliv extrémní hodnota (sníží-li se plat 100 tisíc na 60 tisíc medián se nezmění), protože je to prostřední hodnota, „je mu jedno, co se děje na kraji“ • jeho hodnota je spjata s jedinou hodnotou ze stat. souboru, takže kdyby náš člověk s 18 000 Kč dostal jen 15 000 Kč, stále by to byl medián • medián je velice vhodný do situací, kdy pracujeme s veličinami porovnatelnými, ale těžko se nalézá stupnice pro jejich rigorózní změření (např. ohodnocení statečnosti, adaptability, úrovně znalostí)

  27. Některé vlastnosti statistických charakteristik úrovně modus • vždy se vyskytuje mezi hodnotami • oproti průměru na něj nemá vliv extrémní hodnota

  28. Kdy je lze použít? • aritmetický průměr – pouze pro číselné znaky, nelze pro slovní • medián – pouze pro pořadové znaky (ty mohou být i číselné i slovní), nelze pro názvové • modus – použitelný je vždy, i pro slovní, i pro číselné.

More Related