190 likes | 333 Views
Základní zpracování dat Příklad. OA a VOŠ Příbram. „ Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky“. Příklad: Rozdělení věku nezaměstnaných. Řazení - podle velikosti, abecedně.
E N D
ZákladnízpracovánídatPříklad OA a VOŠ Příbram „Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky“
Příklad:Rozdělenívěkunezaměstnaných • Řazení - podle velikosti, abecedně. • Třídění – zpřehlednění velkého množství dat do tabulek např. uspořádání do tzv. tabulky četností. • Grafická prezentace – grafy, diagramy. 43 22 53 53 28 43 26 38 28 50 22 35 36 36 37 29 28 46 51 23 39 27 19 44 25 22 21 33 23 21 36 47 39 56 49 49 38 26 24 25 34 36 59 35 33 39 49 35 58 29 23 35 28 29 26 31 40 22 44 37 49 19 37 23 21 42 24 29 51 18 55 22 22 56 52 33 45 51 33 38 49 51 37 19 46 34 19 45 46 43 41 28 31 19 21 50 60 47 44 30 40 52 39 39 18 39 24 34 50 27 46 28 48 55 31 54 49 43 27 39 54 54 52 44 26 29 29 26 59 51 23 33 50 34 54 41 33 44 47 24 30 44 20 35 46 31 20 52 21 56 32 22 42 26 50 43 20 23 28 23 27 34 32 54 53 28 25 30 28 27 22 53 53 19 47 35 27 49 23 27 55 19 42 49 47 25 36 42 20 20 46 35 49 58 43 46 22 34 39 27 51 39 52 45 30 21 31 26 54 45
Třídění Prosté třídění diskrétní znak Intervalové třídění spojitý Intervalové třídění spojitý znak
Tabulka četností • Konstrukce tabulky četností • Zjistíme v jakém rozmezí se data pohybují, tedy nejmenší a nejvyšší hodnotu. • Rozhodneme, zda provedeme prosté nebo intervalové třídění (v závislosti na typu sledované proměnné) • Rozhodneme, kolik bude mít tabulka řádků – volíme počet tzv. tříd. • Rozhodneme jaké bude rozpětí jednotlivých tříd. • Počítáme kolik pozorování patří do každé třídy (čárkovací metoda nebo počítač).
Tabulka četností • Volba vhodného počtu tříd (řádků) v tabulce četností • Prosté třídění: • Podle počtu obměn diskrétního znaku • Intervalové třídění: • Sturgesovo pravidlo: počet intervalů k≈ 1 + 3,3log10 n • Jednoduché (odmocninové) pravidlo:k≈√n • Podle potřeby prezentace (např. intervaly po 10 letech) • Intervaly by měly zahrnovat všechny hodnoty a měly by být stejně široké. • Měly? – krajní intervaly mohou být delší pokud zahrnují extrémní hodnoty.
Tabulka četností Nejmenší hodnota sledovaného souboru je 16 let a největší 60 let. Tabulka musí zahrnovat všechny hodnoty! Počet intervalů (řádků) je k = 9. Byl zvolen v souvislosti se šířkou intervalu, která je 5 let (toto uspořádání je přehledné a jednoduché). Intervaly se nesmějí překrývat, proto první končí věkem 20 a druhý začíná věkem 21.
Tabulka četností Při použití jednoduchého (odmocninového) pravidla by počet intervalů byl √4275 ≈ 65 Taková tabulka by byla příliš složitá a nepřehledná. Sturgessovo pravidlo stanovuje následující počet intervalů: k≈ 1 + 3,3log10 4275 ≈ 13. Šířka intervalů se pak spočítá podle vzorce: (maximální hodnota – minimální hodnota) počet intervalů k (60 – 16)/13 = 3,38 ≈ 4 roky
Tabulka četností Střed intervalu (xi*) prostřední hodnota mezi horní a dolní mezí intervalu Absolutní četnost (ni) počet hodnot v souboru spadající do příslušného intervalu 445 nezaměstnaných (hodnot) je ve věku od 31 do 35 let.
Tabulka četností Relativní četnost (pi) počet hodnot (v procentech) v souboru spadající do příslušného intervalu 10% všech nezaměstnaných bylo ve věku od 31 do 35 let. Výpočet:Absolutní četnost/celkem= 445/4275 = 0,10
Tabulka četností Kumulativní absolutní četnost (kni) počet hodnot v souboru, které jsou menší nebo rovny horní mezi příslušného intervalu 2177 nezaměstnaných bylo mladších než 30 let Výpočet:673 + 872 + 632 = 2177
Tabulka četností Kumulativní relativní četnost (kpi) počet hodnot (v procentech) v souboru, které jsou menší nebo rovny horní mezi příslušného intervalu 51% nezaměstnaných bylo mladších než 30 let Výpočet:(673 + 872 + 632)/4275 = 0,51
Tabulka četností Rozdělení věku 1000 900 800 700 600 četnost 500 400 300 200 100 0 16 - 21 - 26 - 31 - 36 - 41 - 46 - 51 - 56 - 20 25 30 35 40 45 50 55 60 věk (roky) Graf rozdělení četností
Základní zpracování dat Rozdělení věku 1000 900 800 700 600 četnost 500 400 300 200 100 0 16 - 21 - 26 - 31 - 36 - 41 - 46 - 51 - 56 - 20 25 30 35 40 45 50 55 60 věk (roky) Histogram četností – absolutní četnost ni
Základní zpracování dat Rozdělení věku 5000 4500 4000 3500 3000 kumulativní absolutní četnost 2500 2000 1500 1000 500 0 16 - 21 - 26 - 31 - 36 - 41 - 46 - 51 - 56 - 20 25 30 35 40 45 50 55 60 věk (roky) Histogram četností – kumulativní absolutní četnost
Základní zpracování dat Polygon četností (spojnicový graf)
Základní zpracování dat Histogram četností – pouze pokud jsou všechny intervaly stejně široké Sloupcový graf – pokud jde o prosté třídění znaku, nebo intervalové s nestejně širokými intervaly.Mezi sloupce se vkládají mezery.