statystyka matematyczna i stosowana n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Statystyka matematyczna i stosowana PowerPoint Presentation
Download Presentation
Statystyka matematyczna i stosowana

Loading in 2 Seconds...

play fullscreen
1 / 87
dean-chavez

Statystyka matematyczna i stosowana - PowerPoint PPT Presentation

129 Views
Download Presentation
Statystyka matematyczna i stosowana
An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Statystyka matematyczna i stosowana Kurs dla Informatyki Matematycznej Semestr zimowy 2007/2008 Strona internetowa: http://im.pwr.wroc.pl/~mbogdan

  2. Wykładowca : Małgorzata Bogdan • Biuro: C-11,p.2.04 • Godziny konsultacji: śr. 12:00-14:00, czw. 14:30 – 15:30 • Telefon: 320 21 03 • Email: Malgorzata.Bogdan@pwr.wroc.pl

  3. Oceny • Dwa kolokwia: 18 listopada i 23 stycznia (na wykładzie) 50+50=100pkt. • Aktywność na ćwiczeniach – extra • Laboratoria – 40 pkt • ≥ 90 % (126 pt) bdb, • 90% - 80 % (125 - 112 pt) db +, itd. • dst , ≥ 70 pkt

  4. Podreczniki • Statystyka dla studentów kierunków technicznych i przyrodniczych, J. Koronacki, J. Mielniczuk, WNT 2004, wyd. II • Introduction to the Practice of Statistics, D. Moore, G. McCabe, Freeman 2003, wyd. III • Statistics for the Life Sciences, M. Samuels, J. Witmer, 2003, wyd. III

  5. Listy zadań na ćwiczenia i laboratoria dostępne w internecie • Zachęcam do zadawania pytań na wykładzie

  6. Dane • Używamy danych, aby odpowiedzieć na pytania dotyczące badanych populacji • Na ogół dane charakteryzują się losową zmiennością • Oceniamy informację zawartą w danych

  7. Czym jest statystyka? • Nauka rozumienia danych i podejmowania decyzji w obliczu losowości • Zbiór metod do planowania eksperymentu i analizy danych tak, aby uzyskać maksimum informacji i ilościową ocenę ich wiarygodności

  8. Przykład 1 • Pewne badania dotyczą wpływu aktywności fizycznej na poziom cholesterolu. Jedna grupa ćwiczy, druga nie.Pytanie: Czy poziom cholesterolu jest niższy u osób, które ćwiczą ? • Czynniki mogące wpłynąć na wynik eksperymentu: • Ludzie mają naturalnie różne poziomy cholesterolu • Reagują różnie na ten sam reżim ćwiczeń • Różny stopień zaangażowania w realizację ćwiczeń • Wpływ diety • Ćwiczenia mogą wpływać na inne czynniki, np. apetyt

  9. Przykład 2 • Eksperyment mikromacierzowy porównujący komórki rakowe i normalne. Czy dwukrotnie wyższy zaobserwowany poziom ekspresji genu dowodzi faktycznie różnej ekspresji ? • Czy mamy powtórzenia eksperymentu? Czy w powtórzeniach wyniki są podobne ? • Dlaczego dwukrotna zmiana, a nie trzy lub czterokrotna ? Jak ustalić właściwą wartość krytyczną?

  10. Przykład3 • W artykule prasowym czytamy, że 80% pieszych będących ofiarami nocnych wypadków samochodowych nosiło ciemne ubrania, a 20% jasne ubrania. Wyciągnięto wniosek, że w nocy bezpiecznie jest nosić jasne ubrania. • Czy przeprowadzone badania upoważniają do takiej konkluzji?

  11. Przykład 4Reakcja owiec na bakterie wąglika

  12. Przykład 5Rozwój raka wątroby u myszy

  13. Sygnał i szum • Przykład 4 – brak zmienności (??):mocna konkluzja • Przykład 5 – duża zmienność: słaba konkluzja • Jak duża musi być próba, abyśmy w oparciu o nią mogli wywnioskować, że badany czynnik ma wpływ na wynik eksperymentu?

  14. Losowość • Dane na ogół charakteryzują się zmiennością • Matematycznie modelujemy tą zmienność używając rachunku prawdopodobieństwa

  15. Przykłady • Prognoza pogody- prawdopodobieństwo deszczu wynosi 80% • Prawdopodobieństwo urodzenia dziewczynkiwynosi 0,49

  16. Schemat badań naukowych • Pytanie naukowe • Planowanie eksperymentu • Eksperyment / zbieranie danych • Analiza danych • Wnioski statystyczne • Wnioski naukowe

  17. Próba, Zmienna • Próba: • Obserwacje lub wyniki eksperymentu • Reprezentuje konkretną realizację eksperymentu • Przykłady: • Wysokość 10 kłosów żyta (10 obserwacji) • Poziom(y) hemoglobiny u 35 dawców • Kolor i kształt ziaren grochu

  18. Próba, Zmienna cd. • Rozmiar próby: • “n” • np. n=10,n=35,n=556 • Zmienna: • to co mierzymy • tu: wysokość, poziom hemoglobiny, kolor i kształt

  19. Zmienne Jakościowe Ilościowe Porządkowe Nie porządkowe Ciągłe Dyskretne Rodzaje zmiennych

  20. Zmienne jakościowe (kategoryczne) • Jakościowe – kwalifikujące do kategorii • Porządkowe, np. wybory w ankiecie: nigdy, rzadko, czasami, często, zawsze • Nie porządkowe, np.: kolor i kształt

  21. Zmienne ilościowe (liczbowe) • Ilościowe – wynik jest liczbą • Ciągłe, np.wzrost, waga, stężenie • Dyskretne, np.liczba wadliwych elementów, liczbagładkich iżółtych groszków

  22. Oznaczenia • Zmienne: X,Y,Z; np.Y=wzrost (pojęcie) • Obserwacja: x,y,z; np. y=182cm (wynik) • Próba: y1,y2,…,yn(wielokrotne obserwacje) • Rozmiar próby: n, czasem n1,n2

  23. Próba a próbka • Biolog mierzy poziom glukozy we krwi 20 ludzi. • „20 próbek krwi”? (biolog) • „Jedna próba 20 pomiarów glukozy.” (statystyk) • Będziemy używali “pomiar” tam, gdzie biolog użyłby słowa “próba”.

  24. Statystyki opisowe: Tabela częstości Groszki:gładkie/pomarszczone, zielone/żółte

  25. Wykres słupkowy (dane jakościowe)

  26. Wykres słupkowy

  27. Wykres kołowy

  28. Dane ilościowe dyskretne • Liczba potomstwa u n=36 macior. Liczność miotu jest liczbącałkowitą (zmienna dyskretna).

  29. Dane

  30. Rozkład liczebności

  31. Histogram (liczebności) • Grupowanie podobnych obserwacji zwykle jest pomocne • Prawie zawsze postępujemy tak z danymi ciągłymi • Definiujemy “klasy” (przedziały) obserwacji i zliczamy liczbę obserwacji wpadających do każdej klasy

  32. Jak wybierać klasy: • Każda obserwacja musi wpadać do dokładnie jednej klasy (klasy rozłączne, pokrywają wszystkie możliwe wyniki) • Rozmiar (szerokość) klas (przedziałów) jest zwykle taki sam • Używamy wygodnych granic przedziałów, np. 20-29, a nie 19.82 – 29.26 • Używamy 5 do 15 klas dla umiarkowanych zbiorów danych (n  50); więcej, gdy próba jest duża

  33. Przykład • Dane : długość łodygi papryki (n=15)

  34. Min=10.9, max=14.1, zakres=max-min=3.2 • Wybieramy szerokość klasy, np. 0.5 ipoczątek 10.5, aby pokryć zakres 10.5 – 14.5. • Zliczamy liczby wystąpień i rysujemy histogram. • Ew. zmieniamy szerokość klas, aby uzyskać pożądany kształt • Za mała szerokość klas=dużo „szumu”, za duża = utrata informacji

  35. Tabela liczebności (klas)

  36. Przykład: Stężenia serum CK

  37. Min=25, max=203 • Rozstęp =178 • Szerokość klasy =20 • Punkt początkowy=20

  38. Opis histogramu: • Centralny szczyt (moda) w okolicach 100 J/L • Zasadnicza masa rozkładu między 40 a 140 J/L • Niesymetryczny–skośny na prawo

  39. Interpretacja pola powierzchni pod histogramem (przy równej szerokość klas) • Nad odcinkiem 60 -100 J/L leży: 42% całkowitej powierzchni histogramu • Do tego odcinka wpada: 42% (15z 36) wartości CK

  40. Nierówna szerokość klas • Powierzchnia pod histogramem nie jest proporcjonalna do liczności • W tak „spaczonym’’ histogramie (patrz dalej) powierzchnia między 140 a 220J/Lstanowi 39% całkowitej powierzchni (mimo, że te stężenia stanowiątylko 14% obserwacji) • Rozwiązanie – podzielić liczności przez długość odcinka (liczbę zgrupowanych klas) • Oś Y na przekształconym histogramie – średnia liczność (w zgrupowanych klasach)

  41. Histogram częstości Często rysujemy histogram tak, że na osi pionowej zaznaczamy częstość (względną)=liczba wystąpień / n Histogram częstości jest użyteczny, zwłaszcza dla porównania zbiorów danych o różnych rozmiarach n

  42. Diagram łodygi i liścia (Stem and leaf plot) • Jest to inny sposób podsumowania danych; zachowuje prawie wszystkie informacje. • Wybieramy „łodygę” („pień”) liczby-zwykle opuszczając jedną lub dwie ostatnie cyfry w zapisie dziesiętnym • Zapisujemy wszystkie „łodygi” w jednej kolumnie w kolejności rosnącej, i rysujemy pionową linię oddzielającą (od „liści”)