1 / 53

Matematické metody vyhodnocování experimentů

Matematické metody vyhodnocování experimentů. Miroslav Pokorný. A. Statistika a pravděpodobnost Všechny lidské aktivity jsou provázeny a ovlivňovány výskytem jevů . S ohledem na možnost jejich existence je dělíme na jevy: - jisté - systémem podmínek je vždy zaručeno uskutečnění jevu

jovita
Download Presentation

Matematické metody vyhodnocování experimentů

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Matematické metody vyhodnocování experimentů Miroslav Pokorný

  2. A. Statistika a pravděpodobnost Všechny lidské aktivity jsou provázeny a ovlivňovány výskytem jevů. S ohledem na možnost jejich existence je dělíme na jevy: - jisté - systémem podmínek je vždy zaručeno uskutečnění jevu - nemožné - systémem podmínek je uskutečnění jevu zcela vyloučeno - náhodné - za daného systému podmínek mohou, ale nemusí nastat Procesy měření a šetření jsou spojeny se specifickou třídou jevů, nazývaných chybami měření. Ty lze dělit podle příčin jejich vzniku na: 1. Chyby systematické - jsou vázány na čas nebo parametry měřicího procesu. Jsou předvídatelné a zvyšují nebo snižují výsledek měření o konstantní hodnotu. Lze je ovlivnit volbou dokonalejší měřicí metody nebo přístroje. 2. Chyby nahodilé - mají pravděpodobnostní charakter, nedají se předvídat a jsou popsány statistickými charakteristikami. Jejich příčiny nelze odstranit, pouze omezit.

  3. Náhodná veličina a náhodný jev Náhodná veličina X – počet pracovníků, přítomných na pracovišti v pondělí v 10hod dopoledne Náhodný jev A - je přítomno 15 pracovníků Pravděpodobnost náhodného jevu A 0  P(A)  1 Relativní četnost jevu n – celkový počet pokusů m – počet pokusů, při nichž jev A nastal Statistická pravděpodobnost jevu

  4. Datové soubory náhodné veličiny X Úplný soubor dat – vyhodnocením získáme číselné charakteristiky Výběrový soubor dat – vyhodnocením získáme statistickéodhady číselných charakteristik Při instrumentálních měřeních získáváme náhodný výběr dat, jehož prvky (jednotlivá měření, pozorování) jsou uvažovány jako realizace náhodné veličiny X. Podstatné je získat tzv. reprezentativní náhodný výběr (datový soubor), který je základním předpokladem korektnosti výsledků jeho vyhodnocení při použití statistických metod.

  5. Vlastnosti reprezentativního datového souboru Vlastnosti reprezentativního výběru (výběrového datového souboru): - vzájemná nezávislost jednotlivých prvků výběru - homogenita výběru, podmíněná tím, že všechny prvky výběru pocházejí ze stejného typu rozdělení hustoty pravděpodobnosti - stejná pravděpodobnost všech prvků, že budou do výběru zařazeny

  6. Ověření předpokladů o datech Ověření předpokladu nezávislosti prvků výběru - statistický test – viz dále Ověření homogenity výběru – diagram rozptýlení, histogram Stejná pravděpodobnost všech prvků – plán a organizace sběru dat Ověření normality výběru - statistický test – viz dále

  7. Distribuční funkce (spojité) náhodné veličiny X Funkční charakteristiky náhodné veličiny X Funkce rozložení hustoty pravděpodobnosti (spojité) náhodné veličiny X

  8. Číselné charakteristiky náhodné veličiny Funkční charakteristiky jsou často obtížně dosažitelné a navíc i málo přehledné. Pro lepší představu o chování náhodné veličiny proto hledáme častěji její číselné charakteristiky, které jsou významnými parametry jejích charakteristik funkčních. 1. Charakteristiky polohy nás informují o střední hodnotě (středu) rozdělení. 2. Charakteristiky rozptýlení (variability) udávají, v jak velké míře kolísají (jsou rozptýleny) hodnoty náhodné veličiny kolem střední hodnoty. Patří sem např. disperze(rozptyl) a směrodatná odchylka. 3. Charakteristiky tvaru, tedy šikmosti (asymetrie) - které udávají nesouměrnost hodnot náhodné veličiny vzhledem k její střední hodnotě - a špičatosti (excesu), které hodnotí, jak dalece je křivka funkce rozložení hustoty pravděpodobnosti ve střední hodnotě špičatá. Patři sem koeficient šikmosti (asymetrie) resp. koeficient špičatosti (excesu).

  9. Obecná definice číselných parametrů (momentů) Střední hodnota funkce Rozptyl (disperze) funkce Směrodatná (standardní) odchylka

  10. Kvantily Kvantily jsou zvláštním druhem číselných charakteristik polohy. p-procentní kvantil je taková hodnota náhodné veličiny X, která má tu vlastnost, že pod ní leží p% procent prvků náhodného výběrového souboru. p – (procentní) kvantil 0,5 - kvantil

  11. B. Předsledná analýza dat Cíle předběžné analýzy naměřených dat Prvotním úkolem při statistickém rozboru výběrového souboru musí být etapy ověření vlastností tohoto souboru a potvrzení, případně zajištění jeho reprezentativnosti. Ověření vlastností výběrového souboru provádíme pomocí robustních metod, které jsou zahrnuty do tzv. průzkumové (předběžné, explorační, exploratorní) analýzy. Průzkumová analýza poskytuje také mnohé možnosti ke zlepšení vlastností výběrového datového souboru, což vede k získání lepších výsledků statistické analýzy. Cílem předběžné průzkumové analýzy dat je prvotní zhodnocení jejich vlastností a stanovení předpokladů pro jejich korektní následné statistické zpracování.

  12. Grafy identifikace vlastností výběrového souboru Diagram rozptýlení Krabicový graf

  13. Počet tříd (empiricky) Histogram zde L = 8

  14. Vybraná rozdělení hustoty pravděpodobnosti Rovnoměrné (rektangulární) rozdělení Normální (Gaussovo) rozdělení

  15. Exponenciální jednostranné rozdělení Umělá rozdělení Studentovo t-rozdělení Fischerovo F-rozdělení Gama rozdělení Chí-kvadrát rozdělení jejich (tabelizované) kvantily jsou použity v proceduách statistické analýzy – viz dále

  16. Ukázka histogramů vybraných rozdělení a) rovnoměrné b) normální c) exponenciální d) Laplaceovo

  17. Předsledná analýza v programovém systému MATLAB – Statistic ToolBox Příklady uvedeny v materiálech Statistické výpočty v MATLABu příkazů a ukázky řešených úloh Statistické výpočty v MATLABU – Statistic ToolBox stručný manuál

  18. C. Vlastní statistická analýza dat Cíle statistické analýzy dat • Statistickou analýzou rozumíme řadu procedur, kterým podrobujeme výběrový soubor, abychom stanovili odhady parametrů základního souboru, z něhož výběr pochází. Naším cílem je, aby odhady parametrů se co nejvíce blížily přesným (deterministickým) hodnotám parametrů (které bychom získali pouze statistickou analýzou úplného datového souboru s nekonečně velkým rozsahem). • Pro správnost a přesnost výsledků statistické analýzy je podstatné odhalení všech zvláštností výběrového souboru a jeho případná úprava na základě výsledků předsledné (průzkumové, exploratorní) analýzy, kterou jsme se zabývali v minulé části. Bez této etapy vyhodnocení dat mohou být výsledky statistické analýzy nekorektní, zcela bezcenné a zavádějící.

  19. Bodové odhady - číselné parametry náhodné veličiny Výběr je dostatečně podrobně charakterizován: a) informací o střední hodnotě velikosti prvků (střední hodnota náhodné veličiny) b) informaci o rozptýlení prvků kolem střední hodnoty (rozptyl náhodné veličiny) c) tvarem výběrového rozdělení (koeficient šikmosti a špičatosti)

  20. Normální (Gaussovo) rozložení hustoty pravděpodobnosti Analytické vyjádření Gaussovy funkce Odhad střední hodnoty Odhad rozptylu % - interval, v něm leží hodnota náhodné veličiny X s pravděpodobností P(X) = 0,62 % - interval, v něm leží hodnota náhodné veličiny X s pravděpodobností P(X) = 0,95

  21. Stanovení minimální velikosti výběru Např.při požadavku: chyba odhadu parametrů =0,1 (tj.10%) Typ rozložení rovnoměrné 21 normální 51 exponenciální 126 Laplaceovo 176 logonormální 351

  22. Intervalové odhady číselných parametrů náhodné veličiny Intervalový odhad definuje číselné rozmezí, ve kterém se bude se zadanou pravděpodobností P = (1 - ) nacházet skutečná hodnota daného parametru . V případě bodového odhadu byl neznámý parametr  určen jedinou číselnou hodnotou; v případě odhadu intervalového je určen dvěma hraničními hodnotami L1 a L2, které tvoří meze tzv. konfidenčního intervalu (neboli intervalu spolehlivosti): kde P je tzv. koeficient spolehlivosti (konfidenční koeficient, statistická jistota) a parametr  se nazývá hladina významnosti. Rovnice tak představuje tvrzení, že pravděpodobnost, s níž se bude skutečná hodnota  nacházet v mezích L1 a L2, je rovna právě ( 1 -  ).

  23. Intervaly spolehlivosti se vyznačují těmito vlastnostmi: a) čím je rozsah výběru n větší, tím je interval spolehlivosti užší b) čím je odhad přesnější a má menší rozptyl, tím je interval užší c) čím vyšší je statistická jistota (1-) tím je interval spolehlivosti širší Pro konstrukci intervalu spolehlivosti musíme znát buď typ rozdělení daného náhodné veličiny. Jako příklad uvedeme konstrukci konfidenčního intervalu střední hodnoty normálního rozdělení. Nejlepším bodovým odhadem střední hodnoty  je výběrový aritmetický průměr V intervalu pak leží skutečná střední hodnota µs pravděpodobností

  24. D. Testování statistických hypotéz Metoda statistických testů V průběhu průzkumové i statistické analýzy vyslovujeme různé předpoklady o vlastnostech a zvláštnostech jednoho výběrového souboru nebo vyslovujeme hypotézy o vzájemných proporcích vlastností dvou souborů při jejich porovnávání.Takové předpoklady nazýváme statistické hypotézy a jejich platnost ověřujeme tzv. testy (platnosti/neplatnosti) vyslovených statistických hypotéz.

  25. Při ověřování (testování) hypotézy postupujeme vždy standardním způsobem, který má tyto kroky: 1. Zformulujeme nulovou hypotézuH0 a alternativní hypotézuHA podle povahy problému. 2. Zvolíme hladinu významnosti testu. 3. Zvolíme testovací statistiku, (tj. funkci hodnot náhodného výběru) se známým rozdělením pravděpodobnosti. 4. Určíme kritický obor hodnot testové statistiky na základě jejího rozdělení pravděpodobnosti a zvolené hladiny významnosti  . 5. Vytvoříme náhodný výběr, vypočítáme hodnotu testovací statistiky (tato hodnota se někdy nazývá testovací kritérium) a určíme její kvantily, které tvoří meze kritického oboru (tzv. kritické hodnoty). 6. Rozhodneme o zamítnutí H0 a přijetí HA v případě, že hodnota testovacího kritéria padne do kritického oboru. 7. Rozhodneme naopak, pokud hodnota testovacího kritéria do oboru kritického nepadne.

  26. Testy o reprezentativnosti výběrového souboru Ověření předpokladu nezávislosti prvků výběru Nulová hypotéza: Alternativní hypotéza: Testovací statistika prvky výběru jsou nezávislé prvky výběru jsou závislé

  27. Stanovení a použití kritického oboru. Platí-li: je nutno hypotézu o nezávislosti prvků výběru na hladině významnosti odmítnout (hypotéza o nezávislosti prvků výběru neplatí), přičemž je (1-α/2) kvantil Studentova t-rozdělení s (n-1) stupni volnosti (nalezneme ve statistických tabulkách).

  28. výběr pochází z normálního rozložené Ověření normality výběru Testovací statistika výběr nepochází z normálního rozložení kde výběrové šikmosti a špičatosti resp. jejich rozptyly a jejich střední hodnota jsou dány vztahy:

  29. Definice a použití kritického oboru. Je‑li je nutno hypotézu o normalitě rozdělení výběru odmítnout a výběr nelze považovat jako soubor s Gaussovým rozdělením, přičemž. je kvantil rozdělení se 2 stupni volnosti (nalezneme ve statistických tabulkách)

  30. Testy hypotéz o statistických parametrech jednoho souboru Testy hypotéz o parametrech  a normálního rozdělení. Nulová hypotéza: Alternativní hypotéza Testovací statistika Kritický obor a jeho použití. Platí-li je nutno nulovou hypotézu o velikosti střední hodnoty zamítnout.

  31. Nulová hypotéza: Alternativní hypotéza: Testovací statistika Stanovení a použití kritického oboru. Platí-li je nutno nulovou hypotézu o velikosti rozptylu zamítnout.

  32. Testy hypotéz o statistických parametrech dvou souborů Předem je třeba povést test hypotézy o shodě rozptylů obou souborů – viz dále. a) v případě, že platí je testovací statistika rovna Hypotéza H0 je na hladině významnosti  zamítnuta tehdy, pokud:

  33. b)v případě, že platí Kritický obor a jeho použití. Platí-li je nutno nulovou hypotézu o shodě středních hodnot zamítnout. je testovací statistika rovna

  34. Předsledný test hypotézy o shodě obou rozptylů Nulová hypotéza: Alternativní hypotéza: Testovací statistika Platí-li je nulová hypotéza H0 o shodě rozptylů na hladině významnosti  zamítnuta, přičemž stupni volnosti (nalezneme ve statistických tabulkách) Je (1-α/2) kvantil Fischerova rozdělení s

  35. E. Robustní metody statistické analýzy Robustní odhady parametrů Při narušení předpokladu normality dat, což je obvykle způsobeno vybočujícími hodnotami měření, nebo nejistoty v rozložení dat, lze získat efektivní odhady parametrů s využitím tzv. robustních metod. neurčují běžně odhady rozptylů, ani meze intervalů spolehlivosti Medián a jeho rozptyl Příkladem robustního odhadu polohy je medián . Má přesnou interpretaci pro symetrická i nesymetrická rozdělení. Jde vždy o 50% kvantil, kdy polovina prvků leží pod a polovina nad jeho hodnotou. Modus Střední prvek výběrového souboru

  36. n=2 Pro ní konfidenční interval střední hodnoty je možno použít vztahu: Vyhodnocení malých výběrů n=3 Pro ní konfidenční interval střední hodnoty lze použít vztahu:

  37. 4<n<20 Jako odhad polohy se používá tzv. pivotová polosuma a jako odhad parametru rozptýlení tzv. pivotové rozpětí

  38. podle toho, které z H bude celé číslo. Dolní a horní pivoty jsou pak

  39. F. Zkoumání • statistických • závislostí • Závislost • náhodných veličin X a Y

  40. Zkoumáním stupně statistické závislosti mezi náhodnými veličinami se zabývá korelační analýza. Stupeň těsnosti (lineární) vazby mezi dvěma náhodnými veličinami hodnotíme velikostí koeficientu korelace. Uvažujme dvě náhodné veličiny X a Y, které jsou reprezentovány svými výběrovými soubory naměřených hodnot a , i = 1, …, n Párový (Pearsonův) koeficient korelaceRXY vypočteme podle vztahu: Korelační koeficient RXYmůže nabývat hodnot z uzavřeného intervalu <-1, 1>. Čím je korelační koeficient bližší hodnotě 1, tím je závislost náhodných veličin vyšší.

  41. Náhodné procesy Náhodný proces zohledňuje průběh velikosti vlastností náhodné veličiny v čase. Je charakterizován množinou svých realizací.

  42. Chceme-li získat popis náhodného procesu, musíme uvažovat minimálně dva řezy ve zvolených okamžicích, např. t1 a t2. Pro tuto dvojici pak budeme definovat všechny pravděpodobnostní charakteristiky, které popisují systém dvou náhodných veličin a) dvojrozměrnou (simultánní) integrální funkci: b) dvojrozměrnou (simultánní) hustotu rozdělení:

  43. a) střední hodnota náhodného procesu ve zvoleném okamžiku tn b) rozptyl (disperze) náhodného procesu ve zvoleném okamžiku tn c) kovarianci můžeme definovat pro dva řezy v okamžicích t1 a t2 Praktickou důležitost má střední hodnota ze součinů hodnot náhodného procesu ve zvolených okamžicích t1 a t2 – autokorelační funkce

  44. Autokorelační funkce vyjadřuje vnitřní strukturu náhodného procesu, je mírou závislosti mezi okamžitými hodnotami náhodného procesu ve dvou řezech. Korelační funkce je mírou závislosti mezi okamžitými hodnotami mezi dvěma různými náhodnými procesy.

  45. Typy náhodných procesů Stacionární náhodné procesy jsou takové náhodné procesy, jejichž funkce rozdělení libovolného řádu jsou časově invariantní (nezávislé na volbě počátku času). Funkce rozdělení jsou shodné pro libovolnou hodnotu . Ergodické náhodné procesy jsou pak takové stacionární náhodné procesy, u nichž při sledování jednoho řezu dostatečně velkého množství realizací se projeví všechny možné stavy tohoto procesu téměř ve stejných poměrech, v jakých se projeví při pozorování jediné, dostatečně dlouhé realizace tohoto procesu. Pravděpodobnostní charakteristiky ergodického náhodného procesu lze tedy určit z jediné dostatečně dlouhé realizace tohoto procesu. a) střední hodnota ergodického náhodného procesu:

  46. b) rozptyl ergodického náhodného procesu u(t): c) autokorelační funkce ergodického náhodného procesu u(t): d) vzájemnou korelační funkci ergodických procesů u(t) a v(t):

  47. G. Ekonomická statistika Statistika a ekonomie Aplikací statistických metod na ekonomická a sociálně ekonomická data vznikla samostatná statistická disciplína – ekonomická statistika. Předmětem ekonomické statistiky je analýza stavu a vývoje jevů v hospodářské oblasti jako východiska k hospodářskému rozhodování či stanovení hospodářské politiky. Statistickými jednotkami mohou být například: osoby - např. pracovníci firmy, studenti, voliči, organizace - např. podniky, obce, školy, věci - např. stroje, výrobky, budovy, události - např. úrazy, meteorologické jevy, poruchy.

  48. Statistické jednotky se obvykle vymezují z hlediska: věcného - např. osoba mužského pohlaví prostorového - např. občan České republiky časového - např. jedinec, který letos dosáhne alespoň 18 let. Ve statistickém zjišťování rozlišujeme dva typy objektů: úplný objekt (populace) – obsahuje všechny existující vymezené statistické jednotky, výběrový objekt (vzorek) – vybraná část populace, která se podrobuje statistickému šetření. Výběrový objekt (vzorek): - výběrové šetření je méně náročné na čas i finanční prostředky - úplný objekt nemusí být vždy celý dostupný - některé průzkumy mohou testované jednotky znehodnotit (např. degustace).

  49. Podle způsobu zobrazení hodnot statistické znaky dělíme na: znaky kvalitativní – jsou vyjádřeny slovně a obvykle představují určitou vlastnost (např. pohlaví, typ podnikání, apod.) znaky kvantitativní – jsou vyjádřeny číselně (číselná data) a obvykle představují množství nebo velikost (např. počet studentů v ročníku, cena výrobku, apod.). Podle způsobu zpracovánídělíme statistické znaky na: znaky nominální – obvykle jsou vyjádřeny kvalitativně, znaky jsou rovnocenné, tj. nelze je navzájem porovnávat ani seřadit do hodnotové stupnice (např. rodinný stav nebo typ podnikání), znaky ordinální – bývají rovněž vyjádřeny kvalitativně, jednotlivým znakům lze přiřadit pořadí a navzájem je porovnávat nebo seřadit (např. dosažené vzdělání nebo jakostní třída výrobku), znaky metrické – jsou vyjádřeny výhradně kvantitativně, jejich varianty jsou plnohodnotná výška osoby nebo počet prodaných výrobků za týden.

  50. Podle počtu variant rozlišujeme statistické znaky: alternativní – mohou nabývat pouze dvou různých hodnot (např. muž – žena, ano – ne), množné – nabývají více než dvou hodnot, jsou variantní.

More Related