z kladn pojmy a tatistick terminol gia n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Základné pojmy a štatistická terminológia PowerPoint Presentation
Download Presentation
Základné pojmy a štatistická terminológia

Loading in 2 Seconds...

play fullscreen
1 / 112

Základné pojmy a štatistická terminológia - PowerPoint PPT Presentation


  • 139 Views
  • Uploaded on

Základné pojmy a štatistická terminológia. Deskriptívna štatistika. Sebahodnotenie. Kedy použijete štandardnú (smerodajnú) odchýlku SD ( standard deviation ) a kedy strednú chybu priemeru SEM ( standard error of mean )?

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Základné pojmy a štatistická terminológia' - edythe


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
sebahodnotenie
Sebahodnotenie

Kedy použijete štandardnú (smerodajnú) odchýlku SD (standarddeviation) a kedy strednú chybu priemeru SEM (standarderrorofmean)?

Aký je rozdiel medzi hladinou významnosti alfa a pravdepodobnosťou p (p – value)?

Ako je formulovaná nulová (výskumná) hypotéza a (komplementárne) ako alternatívna?

Aké sú predpoklady použitia studentovho t – testu a čo sa tu testuje?

Aký je rozdiel medzi koreláciou a lineárnou regresiou?

Aký je rozdiel medzi senzitivitou a špecificitou diagnostického testu?

Aký je rozdiel medzi pomerom šancí OR (oddsratio) a pomerom rizík RR (risk ratio)?

namiesto vodu
Namiesto úvodu 

SidneyHarris http://www.sciencecartoonsplus.com/index.htm

http://www.hsl.unc.edu/Services/Tutorials/EBM/

vod do metodol gie medic nskeho v skumu v skumn z mer a experiment lny klinick dizajn
Úvod do metodológie medicínskeho výskumuVýskumný zámer aexperimentálny / klinický dizajn

Pátrame po efekte (o ktorom máme východiskovú predstavu)

efe kt
Efekt
  • Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte.
  • Tieto zmeny môžu byť kvantitatívne alebokvalitatívne.
  • Typ zmeny a hypotéza o zmene podmieňujú výberštatistického nástroja
  • Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty.
slide6
V biológii, medicíne (a iných vedách) výsledok náhodného pokusu je vyjadrený reálnym číslom
  • Tieto čísla vytvárajú reálnenáhodné veličiny(premenné)
  • Ako často konkrétne hodnoty náhodnej veličiny nastávajú, je matematicky exaktne popísané – rozdelenie pravdepodobnosti
  • Rozdelenie pravdepodobností môžeme popísať pomocou– distribučnej funkcie; funkcie hustoty rozdelenia pravdepodobnosti(u spojitej veličiny)
vz ah pravdepodobnosti ku skuto nosti rozdelenia pravdepodobnost

Vzťah pravdepodobnosti ku skutočnosti, rozdelenia pravdepodobností

Náhodný pokus je pokus konaný za presne definovaných podmienok, výsledok pokusu je dopredu neistý, ale opakovaním pokusu zisťujeme stabilitu frekvencie výskytu možných výsledkov. Teoretický idealizovaný opis – model skutočnosti.

Náhodný jav je ľubovoľné tvrdenie o výsledku náhodného pokusu (jav nemožný, jav pravdepodobný, jav istý).

Pravdepodobnosť môžeme formálne zaviesť tak, že každému z elementárnych javov j priradíme nezáporné číslo pj tak, že ich súčet je rovný jednej.

Náhodná veličina je všeobecne funkcia, ktorá každému elementárnemu javu  priradí hodnotu X() z nejakej množiny možných číselných hodnôt.

Pre náhodnú veličinu X tvorí zoznam „dvojíc“ hodnôt x*j a pj (j=1...m) rozdelenie pravdepodobností náhodnej veličiny X (diskrétne alebo spojité).

u ito n vedie
Užitočné vedieť

„Likelihoodis the hypothetical probability that an event that has already occurred would yield a specific outcome.

The concept differs from that of a probability in that a probability refers to the occurrence of future events, while a likelihood refers to past events with known outcomes.“

(Fisher)

slide9

Otázka na niečo, čo vieme ZMERAŤ

a vyjadriť číslom (skórami)

Rešerš, predbežné experimenty

Výskumná hypotéza– kvalifikovaný odhad o tom, ako fungujú veci.

Schéma experimentu, „logistika“.

Plánujeme potrebný počet

nezávislých pokusov, ktoré môžeme

spresniť opakovaním („paralelky“).

V experimente testujeme,

či dáta podporujú hypotézu.

Najlepšie tzv. „fér testom“ – meníme

len jeden faktor (NZ premenná)

za konštantných podmienok

(kontrolné faktory sú konštantné).

Vyhodnotenie dátového súboru: deskripcia,

testovanie štatistických hypotéz,

Formulovanie záverov, nových hypotéz

Záverečná správa, prezentácie, publikácie

= nezávislé kritické posúdenie výsledkov

slide10

Výskumné otázky vedú

k testovaniu štatistických hypotéz

hypothesis tests are procedures for making rational decisions about the reality of effects
Hypothesis tests are procedures for making rational decisions about the reality of effects.

Väčšina rozhodnutí v živote vyžaduje výber jednej z viacerých možných alternatív. Takéto rozhodnutie je urobenébez znalosti toho, či je korektné alebo nie; teda je založené na nekompletnej informácii.

Racionálnerozhodovanie (decízia)

je charakterizované použitím procedúry, ktorá do rozhodovacieho procesu včlení šancu/pravdepodobnosť(likelihood/probability)nastatia daného javu (napr. úspechu liečby).

Procedúra musí byť zostavená takým spôsobom, aby každý, kto použije rovnakú informáciu, dospel k tomu istému rozhodnutiu.

slide12

Predpoklady úspešného výskumu:

komunikujem so školiteľom/vedúcim tímu,

mám(e) zmysluplný vedecký zámer a z neho vyplývajúce otázky a hypotézy,

viem, čo hľadáme (efekt, koncový bod) a prečo (čo sa má stať, až to potvrdíme)

  • Mám kvalitný dizajn experimentálnej (klinickej) štúdie:

- viem, ako efekt zmeriam (priame, nepriame, náhradné ukazovatele),

- viem, aké faktory by mali/mohli pôsobiť na výsledok koncový bod (efekt, koncový bod), viem, ktoré musím zmerať a zaznamenať pre môj model, viem, aké typy analýz dát potrebujem vykonať

- mám podľa uvedeného premyslený typ štúdie, štruktúru, včleňovacie a vylučovacie kritériá, spôsob priradenia do skupín,

- mám odhadnutú potrebnú veľkosť súboru z hlavného ukazovateľa efektu alebo podľa „najhoršieho scenára“

  • Mám súhlas etickej komisie (štúdia na ľuďoch) alebo Štátnej veterinárnej správy (štúdia na zvieratách)
  • Mám svedomito zmerané (zozbierané) dáta

a pripravenú databázu (zakódované subjekty, označené skupiny, formát a kontrola dát (filtrovanie dát), usporiadanie...

s komenda liber catenatus vahy o ivot a p ilehl m okol 2005
S. Komenda: LIBER CATENATUS - Úvahy o životě a přilehlémokolí, 2005

Reputacivědy nekazí tolikvelké a do očí bijící aféry a podvody; na ty setéměřjistědříve či pozdějipřijde. Vědu kazí především tisíce nanicovatých, upocených a bez kousku nápadu provozovanýchtakyvýzkumů, kterédokázalyprojítformálnímikritériivědní kontroly, bez toho, že by jejichzbytečnost a sterilita bylyodhaleny.

z kladn tatistick pojmy vysvetlenie
Základné štatistické pojmy – vysvetlenie

Štatistický súbor je neprázdna konečná množina objektov, ktoré majú spoločné vlastnosti.

Rozsah súboru n je počet všetkých prvkov množiny.

Štatistické jednotky alebo prvky štatistického súboru sú prvky zvolenej množiny.

Štatistické údaje (dáta) sú kvantitatívne údaje zistené skúmaním hromadných javov.

Štatistický znak je spoločná vlastnosť štatistických jednotiek (značí sa obvykle x).

Hodnoty znaku - jednotlivé údaje znaku - označíme x1, x2 ... x3

Delenie znakov - kvantitatívne a kvalitatívne

Zisťovanie hodnôt volených znakov v určitom štatistickom súbore sa nazýva štatistické šetrenie.

praktick pou itie tatistiky v dvoch rovin ch
Praktické použitieštatistikyv dvoch rovinách
  • Deskriptívna(popisná) štatistika - umožňuje pozorované dáta redukovať na „uchopiteľné“ štatistické parametre – reprezentatívnu hodnotu a rozptyl.

Grafická prezentácia rozdelenie dát rozdelenie

pravdepodobností (štatistické rozdelenie)

a

  • Induktívna (inferenčná) štatistika - umožňuje z pozorovaných dát vytvárať všeobecne platné závery, s uvedením stupňa ich spoľahlivosti.
slide17
Populácia (základný súbor)

- konečný rozsah

- nekonečný rozsah

Parameter (populačná charakteristika) – je číselná charakteristika populácie (napr. priemerná výška mužov na Slovensku). Jej presná hodnota je obvykle neznáma.

slide18
základný súbor-populácia

parameter

pravdepodobnosť

populačný priemer (reprezentatívna hodnota parametra)

populačná smerodajná odchýlka (premenlivosť parametra v populácii)

výber zo základného súboru

(náhodný výber)

odhad parametra (štatistika)

relatívna početnosť (ni/N)

výberový priemer

výberová smerodajná odchýlka

Populácia a výber – vysvetlenie pojmov

poh ad na svet prostredn ctvom d t
Pohľad na svet prostredníctvom dát

J. R. Statist. Soc. A (2011), 174, Part 2, pp. 247–295

slide20

Populačný parameter sa snažíme odhadnúť na základe deskripcie výberu z populácie.Presnosť odhadu závisí od kvality experimentálneho dizajnu(metóda výberu, jeho veľkosť (početnosť), merané alebo zaznamenávané charakteristiky apod.

Výber(z populácie)

  • Reprezentatívny výber – výber, ktorý dobre odráža štruktúru skúmanej populácie
  • Selektívny výber (nereprezentatívny) – dáva skreslený výber o študovanej populácii
  • Zámerný výber - presnosť zovšeobecňujúcich záverov sa opiera o expertné hľadisko (skôr ako o štatistickú metodológiu)
n hodn v ber
Náhodný výber
  • Prostý
  • Mechanický (systematický)
  • Oblastný(stratifikovaný)
  • Skupinový
  • Viacstupňový
  • Následný experiment/štúdia – zber dát, tvorba a analýza dátového súboru
preh ad epidemiologick ch t di
Prehľad epidemiologických štúdií

http://ucebnice.euromise.cz/index.php?conn=0&section=epidem

premenn znaky v ariables
Premenné/znaky (variables)
  • Aby sme mohli matematické uvažovanie aplikovať na klinický obraz pacienta,
  • MRI, CT, EKG, bezpečnosť(safety profile), terapeutický účinok (efficacy trend), účinnosť terapeutického postupu (effectiveness)...musia byť redukované na premenné:
  • Merania:teplota, TK …
  • Počty: WBC, ...
  • Skóre: Papanicolaou, Karnofsky, EDSS, Kurtzke...
  • Binárne:úspech success / neúspech failure (čoho) ...
  • Pojem NÁHODNÁ PREMENNÁ
premenn veli iny z kladn defin cie
Premenné (veličiny) – základné definície
  • Premenná
  • všeobecnejšie ju možno definovať ako veličinu, ktorá môže nadobúdať rôzne hodnoty. V štatistike sa vzťahuje na MERATEĽNÚ vlastnosť, ktorá sa v čase alebo medzi objektami/subjektami typicky mení.
  • Typy premenných:
  • Číselné premenné – (možno zmerať)
  • spojité (koncentrácia onkomarkera) a intervalové (vek)
  • Vyznačujú sa reprezentatívnou (strednou) hodnotou (najčastejšie vyjadrenou ako priemer alebo medián) a mierou premenlivosti (smerodajná odchýlka k priemeru alebo dolný a horný kvartil k mediánu)
  • Kategorické premenné (možno zaradiť)
  • Nominálne – klasifikujú nejakú vlastnosť (genotyp)
  • Ordinálne – určujú stupeň vlastnosti (cancerstaging). Charakterizujú sa početnosťami (%) v jednotlivých kategóriách
slide26

závislé premenné– ich hodnoty môžeme len zmerať alebo registrovať (experimentátor nemá vplyv na to, akú hodnotu prijmú, napr. registrujeme, ako sa objekt zachová na zmenu zadanú experimentátorom). Časté v observačných štúdiách.

  • nezávislé premenné – ich hodnoty môžeme počas experimentu nastaviť, alebo meniť (sú manipulované experimentátorom, alebo môže ísť o grupovanie-zaradenie do skupín podľa veku, pohlavia (stratifikácia) ap). Sú nezávislé od počiatočných podmienok, vlastností, „sklonov” skúmaných objektov.Časté v randomizovaných kontrolovaných štúdiách.
  • (regresia)
z visl vs nez visl premenn pr klad predik n ho modelu

100

75

Senzitivita / %

50

25

0

0

25

50

75

100

1-špecificita

Závislá vs. nezávislá premennápríklad predikčného modelu

y = f(x) symbol xv tomto zápise nazývame argumentom funkcie (alebo nezávislou premennou), symbol f(x) hodnotou funkcie fv bode x

Chi2test dobrej zhody medzi experimentálnym a modelovým výsledkom pre df=48: nesignifikantný (P >0,999)

Chi2test maximálnej vierohodnosti modelu pre df=6: vysoko signifikantný (P < 0,0001)

logit y = - 0,38 - 0,24 x (vek) + 1,25 x (TD) - 7,30 x (Spetzler-Martingrade) + 4,28 x (AVM skóre) - 7,04 x (embolizácia) + 1,42 x (iniciálna rýchlosť obliterácie)

Hraničný (cut-off) bod = 0,5

Senzitivita 92%

Špecificita 94%

Pomer pravdepodobností pravdivého odhadu 16,5

Pozitívna predikčná hodnota testu je 97,14%.

premenn klasifik cia
Premenné-klasifikácia
  • Premenné (znaky) primárneho záujmu – nezávislé premenné, ktoré nazývame faktory a ktoré meriame a/alebo nimi istým spôsobom manipulujeme počas experimentu (kontrolujeme). V observačných štúdiách zaznamenávame a triedime. Očakávame, že sú zdrojom variability v sledovanej odpovedi (v závislej premennej).
  • Pozadie (background, baseline, skresľujúce (confounders), modifikujúce faktory, covariates..) – ich hodnoty (úrovne) môžeme merať (identifikovať), ale nemôžeme ich kontrolovať. Ich zahrnutím do modelu však odstránime variabilitu, ktorú vnášajú do odpovede (hodnoty závislej premennej).
  • Konštantné premenné môžeme merať aj kontrolovať, ale z rôznych dôvodov ich držíme konštatntné počas trvania štúdie.
  • Nekontrolovateľné (hard-to-change) premenné, premenné, o ktorých existencii sa vie, ale ktorými sa kvôli podmienkam nedá manipulovať, alebo je ťažké ich merať. Ich vplyv sa čiastočne eliminuje vhodných dizajnom (rozloženie vplyvu v podskupinách, resp. Experimentálnej a kontrolnej skupine randomizovaným výberom a zaslepením - blinding).
efe kt pripomenutie
Efekt - pripomenutie
  • Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte.
  • Tieto zmeny môžu byť kvantitatívne alebokvalitatívne.
  • Typ zmeny a hypotéza o zmene podmieňuje výberštatistickejprocedúry
  • Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty.
vz ahy medzi z vislou a nez vislou premennou
Vzťahy medzi závislou a nezávislou premennou

A simple statistical mediation model

confounding

Nosenie zápaliek

Rakovina pľúc

fajčenie

Confounding
  • „confounder“ = zavádzajúci faktor, je premenná, ktorá je asociovaná s rizikovým faktorom a je nezávislým rizikovým faktorom pre meraný výsledný efekt (koncový ukazovateľ - outcome)
http liber upol cz liber24 htm
http://liber.upol.cz/LIBER24.htm

„Štatisticky sa dajú preukázať isté psycho-fyziologické korelácie – napríklad:

so zvyšujúcim sa tuhnutím kĺbov narastá pružnosť názorov

Pravdepodobne však táto závislosť nie je natoľko priama, aby sa dalo čakať, že zvýšením pohyblivosti lakťa a kolena rehabilitáciou sa upevní charakter; zrejme, a úplne prozaicky, má na oboch vinu (či zásluhu) vek“

faktor potla uj ci efekt suppressor
Faktor potlačujúci efekt (suppressor)

Faktor v príčinnej postupnosti (interveningfactor)

Zástupný faktor (surrogate factor)

Faktor modifikujúci účinok (mediatingvariable, modifier)

vz jomne korelovan faktory probl m multikolinearity
Vzájomne korelované faktory(problém multikolinearity)

Rizikový faktor

Efekt

Faktor(y) korelujúce s vybraným rizikovým f.

Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: lipoproteíny: LDL s HDL resp. s celkovým cholesterolom; morfometrické údaje, vek/výška u detí apod.

Časovo-závislé faktory

ich odlíšenie od fixných faktorov je dôležité pri analýzach prežívania

typ funk nej z vislosti premenn ch
Typ funkčnej závislosti premenných
  • diskrétne premennésa menia skokoma môžu prijímať len definované hodnoty celých/racionálnych čísel (typické pre nominálne a ordinálne veličiny, viď ďalej)
  • spojité premennémôžu prijať ľubovoľné hodnoty obvykle z definovaného intervalu reálnych čísel
mierka rovne merania pozorovania
Mierka(úrovne merania/pozorovania)
  • nominálna, ordinálna,intervalová, pomerová
  • diskrétna, spojitá (continuous)
slide37

nominálna – zavedenie disjunktných kategórií (napr. binárna škála), ktoré vyčerpávajú všetky možnosti. Neporovnávame, len rozlišujeme (kódovanie slovných úrovní faktoru = hodnôt premennej)

  • ordinálna – podobné požiadavky ako u nominálnej škály, ale naviac je usporiadaná (usporiadaný faktor).
  • intervalová – ešte naviac predpokladá, že medzi susednými usporiadanými hodnotami škály sú v nejakom zmysle rovnaké vzdialenosti. Ide o rozdiel hodnôt. Nula nemusí znamenať neexistenciu vlastnosti/znaku.
  • podielová (pomerná) – najkomplexnejší údaj, ktorý vyjadruje aj násobok predom definovaného jednotkového množstva. Nula znamená neexistenciu vlastnosti/znaku.
vyjadrovacie prostriedky tatistiky
Vyjadrovacie prostriedky štatistiky

Následný experiment/štúdia – zber dát, tvorba a analýza dátového súboru

Grafy a tabuľky

slide39

Formát dát (simulovaná databáza)Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezomvstup: chirurgická intervenciavýstup: úmrtie

Kódovanie v programe StatsDirect:

Cenzurovanie = 0pre nekompletné dátaoznačenie * alebo +

Cenzurovanie = 1pre kompletné dáta (udalosť)

bio medic nske d tov s bory
(Bio)medicínske dátové súbory

Štandardne: na tvorbu databázy za účelom výskumu je potrebný súhlas etickej komisie. Analytikovi sa databáza odosiela BEZ identifikačných údajov pacienta. Prípady treba očíslovať a lekár musí pre seba zachovať zoznam s jednoznačným priradením. Kódy prípadov sú obvykle v prvom stĺpci.

Prvý riadok sú popisky meraných/pozorovaných alebo zaznamenaných charakteristík tak, aby boli JEDNOZNAČNE definované pre danú sadu údajov v stĺpci. Jeden znak / jedna charakteristika = jeden stĺpec. Prvý riadok obvykle „berú “ štat. programy automaticky ako hlavičku - pri zdvojených riadkoch a bunkách hlásia chybu)

Každý ďalší riadok sú údaje pre konkrétny prípad / subjekt. Ak nebolo meranie realizované, bunka sa označí * alebo ostane prázdna. Medzi používané skratky patrí n.a. (not applicable, N/A, značí sa aj „x“)

Kódy a dáta pacientov nasledujú za sebou BEZ PRERUŠENIA, ČI ZLUČOVANIA BUNIEK. Ak je viac skupín, napr. Patológia vs. Kontrola, v druhom stĺpci, hneď za číslom subjektu, je kód skupiny (môže byť aj text). Napr. 1 (aktívne liečený subjekt), 2 (placebo), prípadne ešte 3 (zdravá kontrola).

Alebo E (experimentálna skupina) vs. K (kontrolná skupina)

Alebo O (operovaní), F (farmakologicky liečení) N (bez liečby) a podobne.

Databázu pred odoslaním analytikovi skontrolujeme – využívame exc. funkcie (filter)

grafick prezentovanie d t
Grafické prezentovanie dát

- Praktické príklady

slide42

A) kategorické dáta

grafické alebo tabuľkové zobrazenie vybranej charakteristiky (znaku, premennej)

Prezentácia: stĺpcový graf, kumulatívny stĺpcový graf, koláčový graf

b intervalov a spojit d ta
B) Intervalové a spojité dáta
  • Prezentácia:
  • pre popisnú štatistiku:

ak máme malý počet dát (obvykle „n“ do 30): krabicový graf a „spread plot“

ak máme vyššie počty: krabicový graf a histogram

(obálka histogramu nám hovorí o pravdepodobnostnom rozdelení dát)

  • Pre identifikáciu odľahlých (extrémnych) hodnôt: prednostne „spread plot“, vhodný aj krabicový graf (ďalej nasleduje test)
  • Pre prezentovanie rozdielov medzi 2 a viac skupinami: stĺpcový graf, krabicový graf (pre vlastným testovaním rozdielov)
  • Pre prezentovanie vzťahov medzi 2 premennými: XY graf = scatter, (pre vlastným testovaním vzťahov)
  • Pre prezentovanie vzťahov medzi viac ako 2 premennými: tabuľka (matica) korelačných koeficientov
slide47

Histogram

Priemer erytrocytov

Frequency

10

5

0

6,2

6,4

6,6

6,8

7,0

7,2

7,4

7,6

7,8

8,0

8,2

8,4

8,6

Mid-points for E

spread plot

po

pred

20

25

30

35

40

skóre testu

Spread plot
bodov grafy
Bodové grafy

95% Prediction Interval

Volume LV [cm3]

60

40

20

0

-20

0

5

10

15

LFH [mm]

ladder plot

40

35

30

25

20

pred

po

Ladder plot
slide59

Priemer erytrocytov

Frequency

10

5

0

6,2

6,4

6,6

6,8

7,0

7,2

7,4

7,6

7,8

8,0

8,2

8,4

8,6

Mid-points for E

spojit rozdelenia pravdepodobnost
Spojité rozdelenia pravdepodobností

Častejšie sa používa iný popis chovania náhodnej veličiny – distribučná funkcia náhodnej veličiny X.

Distribučná funkcia udáva pravdepodobnosť, že náhodná veličina X neprekročí dané x. Pre spojité rozdelenie môžeme distribučnú funkciu zapísať ako integrál z hustoty f(x) nazývanej tiež frekvenčná funkcia.

Hodnota f(x) v bode x je úmerná pravdepodobnosti, že náhodná veličina (premenná) padne do blízkeho okolia tohoto bodu (nadobudne definovanú hodnotu- je to početnosť realizácií daného javu)

  • normálne
  • Studentovo
  • chi2
  • Fisher-Snedecoreovo
  • binomické
  • Poissonovo
distribu n funkcia c umulative distribution function
Distribučná funkcia(Cumulativedistributionfunction)

Funkcia hustoty pravdepodobnosti

(probabilitydensityfunction)

slide63

Left: The theoretical normal distribution. Right: Frequencies of 5,000 numbers randomly generated to fit the normal distribution. The proportions of this data within 1, 2, or 3 standard deviations of the mean fit quite nicely to that expected from the theoretical normal distribution.

norm lne rozdelenie
Normálne rozdelenie

68,28%

95,45%

-3

-

3

99,73%

z(/2)

slide66

Pravdepodobnosti výberu rôznych počtov mužov z celkového počtu 48 osôb (mužov a žien) vo výbere, ak uvažujeme parametrickúproporciu mužov rovnú 0,5.

slide67

Left: The theoretical normal distribution. Right: Frequencies of 5,000 numbers randomly generated to fit the normal distribution. The proportions of this data within 1, 2, or 3 standard deviations of the mean fit quite nicely to that expected from the theoretical normal distribution.

slide68

Left: Frequencies of 5,000 numbers randomly generated to fit a distribution skewed to the right. Right: Frequencies of 5,000 numbers randomly generated to fit a bimodal distribution.

kritick hodnoty c norm lneho rozdelenia
Kritické hodnoty (c) normálneho rozdelenia

Výberový priemer je tiež normálne rozdelený (centrálna limitná veta)., preto pravdepodobnosť 1-  je súčasne aj koeficient spoľahlivosti pre populačný priemer. Udáva hraniceintervalu spoľahlivosti (confidence interval),ktorý má tvar:

x  c SE(x )

kde „c“ jekritická hodnotaa

SE jestredná chyba výberového priemeru SE(x ) =n , čo je vlastnevariabilita výberového priemeru, akú má pri opakovaných meraniach.SE charakterizuje presnosť, s akou (jeden) výberový priemer odhaduje príslušný populačný priemer. NIE JE MOŽNÉ JU POVAŽOVAŤ ZA MIERU VARIABILITY NÁHODNEJ VELIČINY „X“ V POPULÁCII.

hlavn popisn deskript vne ukazovatele

Hustota rozdelenia u spojitého rozdelenia alebo predpis pre pravdepodobnosti jednotlivých hodnôt u diskrétneho rozdelenia popisujú chovanie náhodnej veličiny ÚPLNE, ale príliš zložito.Existuje nejaké číslo/čísla, ktoré v sebe sústreďujú čo možno najväčšiu informáciu o náhodnej veličine?

Hlavné popisné (deskriptívne) ukazovatele

miery polohy tzv centr lna tendencia
Miery polohy (tzv.centrálna tendencia)
  • Hodnota okolo ktorej sa dáta sústreďujú - „stred” dát
  • stredná hodnota (aritmetická, priemer)
  • stredná hodnota geometrická
  • stredná hodnota harmonická
  • medián
  • modálna (modus)
  • minimum, maximum
aritmetick priemer
Aritmetický priemer
  • Vhodný pre kvantitatívne znaky merané na číselnej stupnici
  • Nie ordinálne znaky
  • Citlivý na odľahlé hodnoty (nevhodný pre šikmé „nenormálne“ rozdelenia)
medi n
Medián
  • ak sú dáta usporiadané vzostupne/zostupne, rozdelí ich na dve rovnako veľké skupiny
  • Kvantitatívne a ordinálne veličiny (informácia o poradí hodnôt)
  • prostredná hodnota (nepárny počet prvkov), aritmetický priemer z dvoch stredných prvkov (párny počet prvkov výberu)
  • Neovplyvnený odľahlými pozorovaniami
  • Napr.: ED50 – 50% účinná dávka
modus
Modus
  • Modus je hodnota, ktorá sa v súbore dát vyskytuje najčastejšie
  • Dôležitý najmä pre nominálne znaky (krvné skupiny)
  • Najtypickejšia hodnota znaku
  • Nie je ovplyvnený hodnotami všetkých prvkov vo výbere
miery polohy a typy rozdelen
Miery polohy a typy rozdelení

medián=priemer=modus modus priemer modus

medián

modus medián priemer priemer medián modus

miery variability
Miery variability

Vyjadrujú premenlivosť vnútri skupiny/populácie

  • rozptyl (disperzia, variancia = SD2)
  • smerodajná odchýlka (štandardná deviácia, SD)
  • variačné rozpätie (maximum-minimum)
  • medzikvartilové rozpätie
  • Dôležitá poznámka: stredná chyba priemeru (SEM) nie je mierou variability danej veličiny v populácii!

variance, standard deviation, range, interquartile range, standard error of mean

slide77

S2 – rozptyl

  • SD – smerodajná odchýlka
  • Smerodajná odchýlka má rovnaké jednotky ako meraná veličina!
medzikvartilov rozp tie
Medzikvartilové rozpätie
  • Z empirických distribučných funkcií môžeme zisťovať: percentily, decily, kvartily
  • (horný kvartil) Q3 - (dolný kvartil) Q1
  • (medián – stredný kvartil - Q2 = 5. decil = 50. percentil)
  • Krabicové grafy (box and whisker plots)
al ie popisn ukazovatele
Ďalšie popisné ukazovatele
  • variačný koeficient V = (SD/x) · 100%

Centrálne momenty

  • šikmosťskew (g1 , vyjadruje symetriu rozloženia pozorovaní (dát) okolo priemeru)
  • špicatosť kurtosis(g2 , vyjadruje „koncentráciu“ t.j. zoskupenie hodnôt pozorovaní okolo priemeru.

Ak je rozloženie normálne, šikmosť aj špicatosť sú blízko nuly, čo sa využíva pri orientačnej informácii o normalite experimentálnych dát.

Iné:

  • indexy rôznorodnosti – diverzity (Shannonova entropia, Simpsonov index)
slide85

Ďalej:

  • Odhad populačného (parametra) – priemeru
  • Systematická a náhodná chyba
slide86
základný súbor-populácia

parameter

pravdepodobnosť

populačný priemer (reprezentatívna hodnota parametra)

populačná smerodajná odchýlka (premenlivosť parametra v populácii)

výber zo základného súboru

(náhodný výber)

odhad parametra (štatistika)

relatívna početnosť

výberový priemer

výberová smerodajná odchýlka

Populácia a výber –zopakovanie pojmov

slide87

jedna zo základných paradigiem štatistickej indukcie = úsudok od empirického pozorovania k teoretickej predstave . Od vnemu, reálneho faktu stelesňovaného tým, čo bolo namerané,

k matematickému modelu štatistického správania sa náhodnej veličiny, o ktorú nám v uvažovanej situácii ide.

presnos a spr vnos
Presnosť a správnosť
  • náhodná chyba
    • biologická
    • metodologická
  • systematická

chyba (bias)

  • očakávaná (efekt)
  • nežiaduca

(skresľujúci faktor)

Poznámka: pripomeňme si dôležitosť intervalov spoľahlivosti (95%CI)

odhad popula n ho priemeru
Odhad populačného priemeru
  • (Výberový) Priemer – bodový odhad populačného priemeru

Tento odhad je zaťažený chybou

  • SEM, CI – confidence interval (interval spoľahlivosti) – intervalový odhad populačného priemeru
slide92

Populačné rozdelenie výšky

μ = 150cm; σ = 5cm

Výber z populácie

Vytvoríme histogram (výberové rozdelenie výšok) a preložíme normálnym rozdelením

Odhady populačných parametrov (μ a σ)

Výberové rozdelenie

Zopakujeme celý experiment ešte raz

Výberový priemer = 148cm

Výberová SD = 4,5cm

slide93

Populačné rozdelenie výšky

μ = 150cm; σ = 5cm

Výber z populácie

Výberové rozdelenie

Získame niekoľko výberov → niekoľko bodových odhadov (skutočného) populačného priemeru sledovanej veličiny (výšky), ktoré nebudú úplne rovnaké budú sa od seba líšiť.

Z tejto skutočnosti vyplývajú dve dôležité veci!!!

slide94

Ak boli tieto výbery urobené „dobre“ (náhodne), predstavujú tzv. reprezentatívne výbery a odhady populačných parametrov sú blízke skutočným populačným parametrom.

Potrebujeme však určiť, ako presne sme ich odhadli...

slide95

Z každého experimentu (výberu) nestačí urobiť len bodový odhad populačného priemeru. Musíme určiť, aký presný je tento odhad → Intervalový odhad populačného priemeru. (SEM, 95% intervaly spoľahlivosti pre priemer).

  • Výberové priemery majú tiež svoje vlastné rozdelenie (rozdelenie výberových priemerov), ktoré je vždy normálne (Gaussovo)!
  • T.j. priemery z jednotlivých experimentov (výberov) predstavujú premennú (veličinu) rovnakú, ako je napríklad výška mužov, hladina glukózy u diabetikov atď.
slide96

Populačné rozdelenie výšky

μ = 150cm; σ = 5cm

Výberové rozdelenie priemerov

v berov rozdelenie priemerov

Výberové rozdelenie priemerov

Výberové rozdelenie priemerov

Smerodajná odchýlka tohto výberového rozdelenia priemerov sa označuje ako SEM !!!

± 1,96 SEM = 95% CI pre priemer

slide98
V skutočnosti robíme len jeden experiment, máme len jeden výber.
  • SEM môžeme z neho určiť nasledovne:

Odhad populačnej σ

95% interval spoľahlivosti (confidence interval CI) pre priemer

o to teda znamen
Čo to teda znamená?

95%CI pre priemer

pozn mka
Poznámka
  • SE –standarderror sa odhaduje aj pre inéštatistické parametre, nielen pre priemer.
  • Taktiež intervaly spoľahlivosti CI
sd vs sem
SD vs. SEM
  • SD – popis variancie výberového rozdelenia dát. Výrazne (predvídateľne) sa nemení s rastúcim počtom dát - veľkosťou výberu (n). Zaujímavý pojem z pohľadu deskriptívnej štatistiky.
  • SEM – intervalový odhad populačného (skutočného) priemeru. Hovorí nám, ako presne sme určili populačný priemer. Zaujímavý pojem z pohľadu induktívnej a inferenčnej štatistiky.
demon trovanie platnosti centr lnej limitnej vety
Demonštrovanie platnosti centrálnej limitnej vety

Rozsah výběru „n“, opakování 100x

Stále užšie histogramy odpovedajú klesajúcej smerodajnej odchýlke priemerov:

4,345 pre n=1, 1,395 pre n=10 a 0,491 pre n=100.

Prvá hodnota je odhad parametra , posledná je odhad strednej chyby priemeru zo 100 pozorovaní, teda odhad pre /100=/10. Aj keď je pôvodné rozdelenie nesymetrické, výberové priemery majú rozdelenie blízke k normálnemu.

slide103
Pokračovanie príkladu: intervaly spoľahlivosti pre populačný priemer veku matiek zo 100 náhodných výberov

Zo 100 95%-ných intervalov spoľahlivosti len 4 nepokrývajú skutočnú hodnotu populačného priemeru. Aj keď je rozdelenie veku matiek výrazne nesymetrické a nemôžeme použiť predpoklad o normálnom rozdelení, centrálna limitná veta zaručuje, že výberové priemery (pre n=100) už majú rozdelenie prakticky normálne.

slide104

Jednotlivé pozorovania (krížiky) a priemery (červené body) pre náhodné výbery z populácie s parametrickýmpriemerom rovným 5 (horizontálna čiara).

slide105
Priemery zo 100 náhodných výberov (N=3) z populácie s parametrickýmpriemerom rovným 5 (horizontálna čiara).
slide106

Priemery ±1 štandardná chyba SEzo 100 náhodných výberov (N=3) z populácie s parametrickýmpriemerom rovným 5 (horizontálna čiara).

slide107

Priemery ±1 štandardná chyba SE zo 100 náhodných výberov (N=20) z populácie s parametrickýmpriemerom rovným 5 (horizontálna čiara).

tudijn literat ra
Študijná literatúra
  • Zvárová et. al. Základy statistiky pro biomedicínské obory I., III. Praha, Karolinum, 2004.
  • Motulsky H.J., Christopoulos A.: Fitting models to biological data using linear and nonlinear regression. A practical guide to curve fitting. GraphPad Software Inc. 2003
  • Katz, M.H.: Multivariable Analysis. A practical Guide for Clinicans. Cambridge University Press, 2001.
  • Armitage, P., Berry, G., Matthews, J.N.S.: Statistical methods in medical research 4th ed, Blackwell science (2002) 816

Doplnkový materiál k štúdiu

  • Slezák Peter a spol. http://bio-med-stat.webnode.sk/
  • Zvára. Biostatistika. Praha, Karolinum, 2001.
  • http://www.statsdirect.com/help
  • http://rimarcik.com/navigator/
anal za d t a rie ite doplnky excelu
Analýza dát a Riešiteľ(doplnky Excelu)

Postup pri inštalácii doplnku nájdete na webe, napr:

http://office.microsoft.com/sk-sk/excel-help/nacitanie-doplnku-analyticke-nastroje-HP010021569.aspx

alebo si postup pozrite na videu na:

http://bio-med-stat.meu.zoznam.sk/materialy/statisticke-programy/

tatistick chyby
Štatistické chyby

Štatistická chyba I. druhu– riziko odsúdenia nevinného človeka(nepoznáme, že platí nulová hypotéza)

Štatistická chyba II. druhu– riziko prepustenia zločinca(nepoznáme, že neplatí nulová hypotéza)