1 / 27

Elementy Rachunku Prawdopodobieństwa i Statystyki

Elementy Rachunku Prawdopodobieństwa i Statystyki. Wykład 12 Metoda największej wiarygodności (MLE) Testowanie hipotez statystycznych. Tomasz Szumlak , WFiIS , 19/06/2013. Jeszcze na temat estymacji – funkcja największej wiarygodności ( nie na egzamin )

Download Presentation

Elementy Rachunku Prawdopodobieństwa i Statystyki

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Elementy Rachunku Prawdopodobieństwa i Statystyki • Wykład 12 • Metoda największej wiarygodności (MLE) • Testowanie hipotez statystycznych Tomasz Szumlak, WFiIS, 19/06/2013

  2. Jeszcze na temat estymacji – funkcja największej wiarygodności (nie na egzamin) • Wiemy, że możemy parametry populacji estymować: • punktowo (jedna liczba) • przedziałowo (wartość centralna + niepewność -> poziom ufności) • Drugi typ estymacji jest zwykle preferowany (możliwość porównania wyników dla dwóch różnych eksperymentów), jednakże, często potrzebujemy „najlepszego” punktowego oszacowania dla danego parametru. W takich przypadkach stosujemy technikę funkcji największej wiarygodności (MaximumLikelihoodEstimate - MLE). • Podstawą tej metody jest założenie, że R.G.P. badanej populacji może być opisany za pomocą funkcji (modelu), która zależy od parametru. Parametr ten, z kolei, chcemy oszacować przy pomocy pewnej statystyki: • Załóżmy, że dokonujemy n niezależnych obserwacji i dostajemy próbę:

  3. Funkcję R.G.P. możemy zapisać w postaci (tak jak robiliśmy to już wcześniej np. dla przypadku dwóch zmiennych niezależnych): Funkcję tę nazywamy wiarygodnością. Możemy powyższą formułę przepisać jako: Stosując technikę MLE, traktujemy Z.L. Xi jako parametry (eksperyment się zakończył i znamy jego wyniki). Spodziewamy się, że jeżeli wybraliśmy „dobrą” funkcję R.G.P. i parametr  wówczas prob. zaobserwowania danych jest wysokie. Aby wyznaczyć optymalną („najlepszą”) wartość parametru  szukamy maksimum funkcji wiarygodności (z uwagi na wygodę, często używamy logarytmu funkcji wiarygodności).

  4. Sprawdźmy MLE w akcji: Załóżmy, że pobieramy próbę o rozmiarze n z populacji o rozkładzie Poisson’a, którego wartość oczekiwana wynosi . Funkcja wiarygodności przybiera postać: Logarytmujemy obie strony (zamieniamy iloczyn na sumę): Różniczkujemy: Rozwiązując powyższe dostajemy:

  5. Testowanie hipotez – przypomnienie (poprzedni wykład) Decyzja statystyczna Hipoteza statystyczna („zerowa” i „alternatywna”, H0 i H1) Statystycznie znacząca różnica i odrzucanie hipotez Testowanie statystyczne… (test of significance, decisionrules)

  6. Testowanie hipotez – ryzyko… • Testowanie hipotez oparte jest o probabilistykę – odpowiedzi (wnioski), których udzielamy mogą być błędne mimo naszych najlepszych chęci! • Nowy (dokładniejszy) eksperyment/wiedza może zmodyfikować nasz poglądi zmienić wyniki wcześniejszej analizy (częsty przypadek). • Ilościowo ujmujemy to wprowadzając dwa (tzw. typy) rodzaje błędów: • Typ I – odrzucamy prawdziwą hipotezę • Typ II – przyjmujemy fałszywą hipotezę • W każdym z powyższych popełniliśmy błąd – żaden z tych scenariuszy nie jest mniej niebezpieczny (musimy brać pod uwagę potencjalne konsekwencje) • Ogólnie projektowanie testów statystycznych – optymalizacja (minimalizacja) błędów obu typów – delikatna gra, zwykle musimy zadowolić się jakimś kompromisem! • Skomplikowany problem – potencjalnie może spowodować straty – np. materialne • dla danej próbki zmniejszenie błędów Typu I zwiększa ryzyko wystąpienia błędów Typu II • w praktyce jeden z nich może mieć znacznie poważniejsze konsekwencje niż drugi • rozmiar próbki krytyczny

  7. Testowanie hipotez – ryzyko… • Testowanie hipotez oparte jest o probabilistykę – odpowiedzi (wnioski), których udzielamy mogą być błędne! • Nowy (dokładniejszy) eksperyment/wiedza może zmodyfikować nasz poglądi zmienić wyniki wcześniejszej analizy (częsty przypadek). • Ilościowo ujmujemy to wprowadzając dwa (tzw. typy) rodzaje błędów: • Typ I – odrzucamy prawdziwą hipotezę • Typ II – przyjmujemy fałszywą hipotezę • W każdym z powyższych popełniliśmy błąd – żaden z tych scenariuszy nie jest mniej niebezpieczny (musimy brać pod uwagę potencjalne konsekwencje) • Ogólnie projektowanie testów statystycznych – optymalizacja (minimalizacja) błędów obu typów – delikatna gra, zwykle musimy zadowolić się jakimś kompromisem! • Skomplikowany problem – potencjalnie może spowodować straty – np. materialne • dla danej próbki zmniejszenie błędów Typu I zwiększa ryzyko wystąpienia błędów Typu II • w praktyce jeden z nich może mieć znacznie poważniejsze konsekwencje niż drugi • rozmiar próbki krytyczny 7

  8. Testowanie hipotez – poziom istotności • W procesie testowania hipotez maksymalne prob. popełnienia błędu (ryzyko na które się „zgadzamy”) Typu I nazywamy poziomem istotności (P.I.) • Zwykle poziom istotności ustalany jest przed pobraniem próby • np. zwyczajowo dla danego typu eksperymentu przyjmujemy P.I. równy  = 0.05 (5%) • Załóżmy, że wybieramy P.I.  = 0.05 do zaprojektowania testu statystycznego • mówimy, że ryzyko odrzucenia poprawnej hipotezy istnieje w „5 przypadkach na 100” • inaczej: jesteśmy w 95% pewni, że jeżeli dana hipoteza „zerowa” jest prawdziwa to nasz test ją zaakceptuje • dana hipoteza alternatywna jest, z kolei, odrzucana na poziomie istotności 5% • inaczej: możemy się mylić co do odrzucenia hipotezy alternatywnej z prob. 5%

  9. Testowanie hipotez – rozkład normalny (ogólny przykład) • Hipoteza „zerowa” H0: • statystyka St podlega rozkładowi normalnemu N(St, St) • powiedzmy, że chcemy odrzucić hipotezę, jeżeli wartość badanej statystyki jest zbyt duża lub zbyt mała • badamy oczywiście odpowiednią zmienną standardową: • tzw. przedział krytyczny ustalamy na podstawie przyjętego P.I. • np. dla  = 0.05 Obszar krytyczny Wartości krytyczne

  10. Testowanie hipotez – rozkład normalny (ogólny przykład) • jeżeli H0 prawdziwa, wówczas, dla konkretnej próby wartość statystyki Stpowinna być taka, że odpowiadająca jej wartość zmiennej losowej z leży w przedziale z (-1.96, 1.96) • przypadek, dla którego nie jest to prawdą może zdarzyć się z prob. 5%, jeżeli H0 jest prawdziwa! • w drugim przypadku, możemy stwierdzić, że obserwowany wynik jest istotnie różny od spodziewanego (gdy hipoteza zerowa jest prawdziwa) • daje nam to ilościowe narzędzie do przyjęcia lub odrzucenia danej hipotezy (pomiar znajduje się w obszarze krytycznym) • zwykle silne stwierdzenie dotyczy odrzucenia danej hipotezy • Możemy przyjąć więc następującą strategię: • odrzucić daną hipotezę „zerową” na P.I.  = 0.05 gdy dla badanej statystyki odpowiadająca jej wartość Z.L. standardowej znajduje się w obszarze krytycznym • mówimy, że eksperymentalna statystyka z próby jest znacząca na poziomie 0.05 • zaakceptować (lub nie formułować żadnych wniosków) w przeciwnym przypadku

  11. Testowanie hipotez – testy jedno- i dwustronne • Podział testów jest intuicyjny: • jeżeli interesuje nas przedział krytyczny po obu stronach wartości oczekiwanej badanej statystyki – test dwustronny • gdy interesuje nas przedział krytyczny tylko po jednej stronie (np. badamy, czy nowy proces, technologia, lekarstwo itp. jest lepsze/gorsze od obecnie stosowanego) – test jednostronny Poziom istotności  Wartości krytyczne dla testu jednostronnego lub lub lub lub lub Wartości krytyczne dla testu dwustronnego i i i i i

  12. p-wartość (p-value) – graniczny poziom istotności • p-wartość – jest prob. otrzymania statystyki testowej o wartości co najmniej takiej samej jak zaobserwowana w eksperymencie, zakładając że hipoteza „zerowa” jest prawdziwa • Jak możemy wykorzystać p-wartość? • W praktyce, nasz test bada hipotezę H0, która stwierdza, że wartość parametru populacji ma pewną konkretną wartość oraz hipotezę alternatywną H1, która może stwierdzać co następuje: • parametr jest większy niż przewidywany przez H0 (test prawostronny) • parametr jest mniejszy niż przewidywany przez H0 (test lewostronny) • parametr jest większy/mniejszy niż przewidywany przez H0 (test dwustronny) • Przykład • Załóżmy, że zmienna losowa podlega rozkładowi N o  = 3, natomiast H0stanowi: µ = 12. Losujemy próbę o rozmiarze n = 36, dla której wartość średnia wynosi: = 12.95. Statystyka testowa:

  13. c.d.Przykład • p-wartość zależy oczywiście od hipotezy alternatywnej: • H1: µ > 12 (test prawostronny) – p-wartość to prob., że wartość średnia dla próby losowej (n = 36) wyniesie 12.95 lub więcej, jeżeli prawdziwa średnia populacji wynosi 12 (hipoteza „zerowa”) czyli: • Co odpowiada stwierdzeniu: w 3 przypadkach na 100, wartość średnia z próby o rozmiarze n = 36 może być większa (bądź równa) 12.95 jeżeli prawdziwa wartość średnia populacji wynosi 12 (fluktuacja statystyczna!) • H1: µ < 12 (test lewostronny) – p-wartość to prob., że wartość średnia dla próby losowej (n = 36) wyniesie 12.95 lub mniej, jeżeli prawdziwa średnia populacji wynosi 12, czyli: • To jest równoznaczne ze stwierdzeniem: w 97 przypadkach na 100 wartość średnia z próby da wartość 12.95 lub mniejszą, gdy prawdziwa wartość średnia populacji wynosi 12 • H1: µ ≠ 12 (test dwustronny) – p-wartość to prob., że wartość średnia dla próby losowej (n = 36) będzie odchylona o 0.95 lub więcej (pamiętamy o jednostkach!) od wartości prawdziwej 12: • p-wartość wyniesie w tym przypadku:

  14. c.d.Przykład • Komentarz… • W ogólności – gdy p-wartość jest mała – mamy przesłanki do odrzucona hipotezy „zerowej”i przyjęcie alternatywnej • H1: µ > 12 (test prawostronny) – p-wartośćmała (0.029), powinniśmy stwierdzić, że istnieje duże prob., że prawdziwa wartość oczekiwana populacji jest większa niż 12 • H1: µ < 12 (test lewostronny) – p-wartość jest duża (0.97), silny dowód na to, że hipoteza „zerowa” nie powinna być odrzucona na rzecz alternatynej • H1: µ ≠ 12 (test dwustronny) – p-wartośćmała (0.057), sugeruje możliwość odrzucenia hipotezy „zerowej” na rzecz alternatywnej • UWAGA – istotna cecha testowania hipotez: test nie pozwala odrzucać bądź przyjmować hipotez „zerowych” bez odniesienia do hipotez alternatywnych. Identyczne p-wartości lub P.I. mogą prowadzić do różnych wniosków co do H0 w zależności od tego jaka jest hipoteza alternatywna.

  15. Testowanie hipotez – duża próba, wartość średnia Przykład Dostawca lin stalowych twierdzi, że opracował nową technologię produkcji, dzięki której liny charakteryzują się większą wytrzymałością na zrywanie. Pobrano losową próbę w celu weryfikacji tego twierdzenia, n = 50, i znaleziono, że średnia siła zrywająca FMAX’ = 25 kN. Parametry starego typu lin charakteryzują się wartością maksymalnej siły zrywającej FMAX = 24.3 kN oraz Fmax = 1.4 kN. Czy stwierdzenie producenta są uzasadnione? Wybierzmy P.I.  = 0.01, H0: µ = 24.3 kN, H0: µ > 24.3 kN

  16. Przykład (c.d.) • Decyzja statystyczna: • jeżeli wartość Z.L. standardowej w pobranej próbce przekroczy założony P.I. (2.33), powiemy, że uzyskany rezultat jest znaczący na poziomie 0.01 – odrzucimy wówczas hipotezę „zerową” • w przeciwnym przypadku nie mamy podstaw do jej odrzucenia, policzmy… • Uzyskany wynik znacząco przekracza wartość krytyczną, 2.33 , wynikającą z przyjętego P.I. • Wniosek – uzyskany rezultat jest znaczący na P.I.  = 0.01 • p-wartość dla naszego przypadku wynosi: P(Z ≥ 3.53) ≈ 0.0002, odpowiada to prob., że zaobserwowana (bądź większa) wartość siły zrywającej jest efektem fluktuacji statystycznej.

  17. Testowanie hipotez – duża próba, różnica wartości średnich Dla dużych próbek rozkład eksperymentalny statystyki będącej różnicą średnich jestw przybliżeniu normalny, mamy więc: Używając powyższej Z.L. standardowej możemy testować istotność zaobserwowanej różnicy względem hipotez alternatywnych na wybranym P.I.

  18. Testowanie hipotez – mała próba, wartość średnia W przypadku, gdy mamy do czynienia z małymi próbami (n < 30) możemy sformułować testy statystyczne analogiczne do omówionych, z tą różnicą, że zamiast wartości krytycznych wyznaczonych na podstawie rozkładu normalnego stosujemy rozkład t-Studenta. W takim przypadku, aby przetestować hipotezę H0, że pewien rozkład normalny posiada wartość oczekiwaną  możemy zastosować następującą Z.L.: W tym przypadku odpowiednie wartości krytyczne t dobieramy na podstawie rozkładu t-Studenta Przykład Parametry nominalne lin produkowanych przez firmę A zawierają średnią wartość maksymalnej siły zrywającej, która wynosi 25 kN. Dział badawczy pobrał próbę składającą się z 6 fragmentów lin. Średnia wartość siły zrywającej otrzymanej z próby wyniosła 24.3 kNa odchylenie standardowe 0.45 kN. Czy otrzymane wartości są zgodne z parametrami nominalnymi?

  19. Przykład (c.d.) • Wybierzmy P.I.  = 0.01, H0: µ = 25 kN, H1: µ < 25 kN • Zastosujemy test jednostronny. • Zakładając, że hipoteza „zerowa” jest prawdziwa mamy: • Decyzja statystyczna: • zaakceptujemy H0 gdy T > -t0.95, wartość krytyczną dla rozkładu t-Studenta odczytujemy z tablic: -t0.95 = -2.01 (dla 6 – 1 stopni swobody) – T > -2.01 • odrzucamy w przeciwnym przypadku • Dla naszego przykładu T = -3.47 – odrzucamy więc hipotezę „zerową”.

  20. Związek pomiędzy testowaniem hipotez i estymacją Popatrzmy na dwustronny test dla wartości średniej: W tym przypadku, zaakceptowaliśmy hipotezę „zerową” na P.I.  = 0.05, łatwo możemy przepisać to w następującej formie: Powyższe wyrażenie, możemy zinterpretować jako 95% przedział ufności dla parametru „a”. Możemy więc, w przypadku testu dwustronnego, zastosować technikę przedziałów ufności do testowania hipotez statystycznych!

  21. Test 2 Załóżmy, że interesuje nas porównanie teoretycznego R.G.P. opisującego rozkład zmiennej losowej X będącej liczbą oczek na ściance kostki a eksperymentem. Przeprowadzamy eksperyment polegający na N = 120 krotnym rzucie pojedynczą kostką. Jeżeli prob. wyrzucenia poszczególnych ścian zapiszemy jako pi {i = 1,…, 6} to spodziewamy się, że odpowiednie częstości obserwacji wyniosą ni = N pi = 20. Pytanie (1): w jaki sposób zmierzyć odchyłkę pomiędzy rozkładem teoretycznyma eksperymentalnym? Pytanie (2): jakie wnioski możemy na tej podstawie (pomiar odchylenia) wyciągnąć (np. kostka jest fałszywa)? Okazuje się, że istnieje statystyka, którą można się posłużyć do wyznaczenia miary tego odchylenia, oraz na tej podstawie przeprowadzić odpowiedni test. Zapiszmy:

  22. Aby zapoznać się z praktycznym zastosowaniem techniki testu 2rozważmy następujący przykład: Tzw. detektor wierzchołka w eksperymencie LHCb składa się z sensorów przedstawionych na rysunku: Załóżmy, że interesuje nas czy cząstki rejestrowane w takim detektorze posiadają rozkład płaski w funkcji kąta azymutalnego . Dla wybranego sensora rejestrujemy 20000 cząstek. Zgodnie z naszą hipotezą „zerową”, R.G.P. opisujący rozkład cząstek („teoretyczny”) ma postać:

  23. Rozkład eksperymentalny (częstość) liczby cząstek na bin w kącie azymutalnym: Chcemy wiedzieć, czy odchyłka pomiędzy zmierzonym rozkładem a linią prostą reprezentującą rozkład płaski wynika z fluktuacji statystycznej czy przedstawia inny rozkład, który różni się istotnie od proponowanego.

  24. Statystyka testowa dla naszego przykładu ma postać: Przy zadanym P.I. (np. 0.05) możemy na podstawie tablic statystycznych wyznaczyć krytyczną wartość statystyki testowej: Jeżeli wyznaczona przez nas wartość eksperymentalna 2 jest większa od krytycznej mamy podstawy do odrzucenia hipotezy o płaskim rozkładzie cząstek. Zachęcam do przeliczenia powyższego przykładu do końca (odpowiednie tablice będą dostępne na stronie). Liczba stopni swobody: 24 – 1.

More Related