1 / 42

2013 - Das Jahr der Statistik

2013 - Das Jahr der Statistik. Marloes Maathuis Seminar für Statistik ETH Zürich. 300 Jahr nach “ Ars Conjectandi ” von Jakob Bernoulli. Basel: 1654 - 1705 . 1713 . Was ist das Jahr der Statistik ?. Ziele :

Download Presentation

2013 - Das Jahr der Statistik

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2013 - Das Jahr der Statistik MarloesMaathuisSeminar fürStatistikETH Zürich

  2. 300 Jahrnach “ArsConjectandi” von Jakob Bernoulli Basel: 1654 - 1705 1713

  3. Was ist das Jahr der Statistik? • Ziele: • “Increase public awareness of the power and impact of statistics on all aspects of society” • “Nurture statistics as a profession, especially among young people” • “Promote creativity and development in the sciences of probability and statistics” • Website: • http://www.statistics2013.org/(Posters, Videos, etc)

  4. Gesundheit

  5. Wirtschaft und Politik

  6. Biologie

  7. Landwirtschaft und Umwelt

  8. Sport

  9. Katastrophen

  10. EsgibtimmermehrDaten: wirbrauchenmehrStatistik! • Hal Varian (Chief Economist at Google), Jan 2009: • “I keep saying the sexy job in the next ten years will be statisticians.“ • “The ability to take data to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it is going to be a hugely important skill in the next decades, not only at the professional level but even at the educational level for elementary school kids, for high school kids, for college kids. Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it.”

  11. InternationaleKonferenzArsConjectandi • Internationale Konferenz Ars Conjectandi 1713-2013 • 15.- 16. Oktober 2013 in Basel • http://www.statoo.ch/bernoulli13/ • Einladung zum öffentlichen Vortrag: • Sprecher: Gerd Bosbach, Hochschule KoblenzKo-autor vom Buch „Lügen mit Zahlen. Wie wir mit Statistiken manipuliert werden“ (mit Jens Jürgen Korff) • Titel: “Vorsicht Statistik” • Zeit: Mittwoch 16. Oktober, 16.40 - 17.25 • Ort: Congress Center Basel, Messeplatz 21, Basel

  12. Inhaltsübersichtdes Vortrags • 2013 - Das Jahr der Statistik • Permutationstests / Randomisierungstests • Kausalität

  13. WarumRandomisierungstests? • Intuitiv, verständlichfürSchüler • Man kannallewichtigenKonzepteeinesstatistischen Tests anhandeinesPermutationstestserklären • Wirdhäufig in der Praxis benutzt

  14. Beispiel: AnzahlStundenbiszumAbklingeneinerErkältung • Frage: Zeigen die Daten, dass ein Multi-Vitamin Präparat eine Erkältung verkürzt? Können die Unterschiede zwischen den Gruppen als zufällig angesehen werden, oder ist ein systematischer Unterschied plausibler? • Applet (hypothetischer Datensatz)

  15. Was habenwirgemacht? • Gedanken-Experiment: wirnehmen mal an, dass die BehandlungkeineAuswirkung hat (*) • Dannwürden die Zahlen (StundenbiszumAbklingen) sichnichtändern, wennwir die Behandlungwechseln • Wirschauenalle≈ 352716möglichenGruppen-Zuteilungen an und rechnenjedes mal den Unterschied in Mittelwerten. Das ergibteineReferenzverteilung. • Wirvergleichen den beobachteten Wert 12.069 zudieserReferenzverteilung: • “passt gut” unsereAnnahme(*) könnte gut stimmen • “sehrextrem” unsereAnnahme(*)stimmtehernicht

  16. Formell: einstatistischer Test • Daten: • Annahme: GruppengemachtdurchRandomisierung • Wirformulieren die Null- und Alternativ-Hypothesen: • H0: Die Behandlung hat keineAuswirkung(Null-Hypothese) • H1: Die Behandlungverkürzt die Erkältung(Alternativ-Hypothese; einseitig) • WirformuliereneineTeststatistik; soll extreme Werteannehmen, wenn die Alternativ-Hypothese gilt: • Unterschiedin Mittelwerten (12.069) • Ziel: • EntscheidenzwischenH0 und H1

  17. Fehler der 1. und 2. Art • WirhabennureinezufälligeGruppenzuteilung und die dazugehörendeTeststatistik. Deshalbsindwirniesicher, obH0oderH1stimmt. • WirkönnenzweiArten von Fehlernmachen: • WirmöchtenKontrolleüber den Fehler der 1. Art: • P(Fehler der 1. Art) ≤ α(Signifikanzniveau / Niveau) • Ein Test istexakt, falls dieseKontrollegenaustimmt

  18. Einstatistischer Test (Fortsetzung) • WirdefinierenH0, H1, Teststatistik und Niveauα • Wirkonstruieren die Verteilung der TeststatistikunterH0 (Referenzverteilung) • Wirvergleichen die beobachteteTeststatistikzurReferenz-verteilung und treffeneineEntscheidungzumNiveauα • ZweiAnsätze: • Verwerfungsbereich • P-Wert

  19. Entscheidunganhand des Verwerfungsbereiches • Verwerfungsbereich = GebietA der extremenWerte (bzgl. H1), so dass P(A|H0) ≤ α • Beispiel: A ≈ [12.65, ∞) • Entscheidung: VerwerfeH0,falls die beobachteteTeststatistikimVerwerfungsbereichist • Beispiel: 12.069 istnichtimVerwerfungsbereichwirverwerfenH0nicht • Schlussfolgerung: Die DatenwidersprechenH0nichtzumNiveauα = 0.05.(das heisstabernicht, dassH0bewiesenist!)

  20. Entscheidunganhandeines P-Wertes • P-Wert = die WahrscheinlichkeiteineTeststatistikdie mindestens so extremistwieunserezubeobachten, falls H0stimmt (extrembzgl. H1) • Beispiel: P-Wert ≈ 0.06 • Entscheidung: VerwerfeH0, falls P-Wert < α • Beispiel: 0.06 > 0.05 wirverwerfenHonicht • Schlussfolgerung: Die DatenwidersprechenH0nichtzumNiveauα = 0.05.(das heisstabernicht, dassH0bewiesenist!)

  21. Randomisierungstests: Geschichte • Zuerstvorgeschlagen von Fischer (1935) and Pitman (1937,1938) • Fisher (1936): “the statistician does not carry out this very simple and very tedious process, but his conclusions have no justification beyond the fact that they agree with those which could have been arrived at by this elementary method.” • Heutzutageist Computing keineEinschränkungmehr. Man benutzt Monte-Carlo Simulationen, wenn die Anzahl der möglichenPermutationenzu gross ist. • Einigeüblichestatistische Tests sindRandomisierungstests: • Wilcoxon Rank Sum Test • Wilcoxon Signed Rank Test

  22. Randomisierungstests: Eigenschaften • Exakt und nicht-parametrisch: • Die Tests halten das Signifikanzniveau α exakteinohneVoraussetzungen an der Verteilung • Formellbetrachtet man die Datenalsgegeben. Der Zufallkommtnurvia der Gruppenzuteilung rein. (Man kann die Datenaberauchalszufälligbetrachten; dannkonditioneller Test.) • Man kannbeliebigkomplexe (auchrobustere) Teststatistikenbenutzen • Man kannauchVertrauensintervallekonstruieren • NichtlimitiertzumVergleichzweierStichprobenmitRandomisierungsschritt. Voraussetzungen: die BeobachtungensindunterH0gleichverteilt und unabhängig.

  23. Inhaltsübersichtdes Vortrags • 2013 - Das Jahr der Statistik • Permutationstests / Randomisierungstests • Kausalität

  24. WarumKausalität? • Wichtigfür “statistical literacy” • MeineForschungist in diesemGebiet

  25. Beispieleaus der Zeitung / dem Internet • “Eat breakfast if you want to reduce your risk of coronary heart disease” (The Guardian) • “Anesthesia may harm children's brains. Study: anesthesia before age 3 linked to later mental problems” (WebMD) • “Breastfeeding may reduce Alzheimer’s risk” (Cambridge University) • …. • Oft interpretiert man solcheAussagenalsWarnungenoderRatschläge

  26. Beispiel • PersonenmitgelbenFingernhabeneinhöheresRisiko an Lungenkrebszuerkranken Korrelation Nein, Rauchenist die wahreUrsache! • Ratschlag: Man muss die Händebesserwaschen (?!)

  27. FürsinnvolleRatschläge muss man Kausalitätverstehen • ErsteFrage: • Wiewurden die Datengesammelt? • EsgibtzweiwichtigeArten von Studien: • RandomisiertekontrollierteStudien • Beobachtungsstudien

  28. RandomisiertekontrollierteStudien • EsgibteineKontrollgruppe • Die Behandlungwirdrandomisiert • Am bestenauchnochdoppelblind

  29. Grundidee: vergleichbareGruppen • Durch die Randomisierungsind die Gruppengleichin allenmöglichenAspekten, ausser der Behandlung • WenneseinengrossenGesundheitsunterschiedzwischen den Gruppengibt, dannmuss das wegen der Behandlungsein

  30. Beobachtungsstudien Man wähltselber • Die Versuchspersonenbestimmenselber was siemachen; die Forscherbeobachtennur.

  31. Beobachtungsstudien • Beispiel: FrühstückodernurKaffee Weniger Stress? Mehr Sport? Gesundere Snacks? …. • Was ist die Ursache der geringerenAnzahlHerzkrankheiten? • Wirwissenesnicht…

  32. Vergleich: Experimente in den Naturwissenschaften • Warumwachsen die Blumenschneller? Wegen der Sonneoder des Wassers? • Wirwissenesnicht, weilwir auf einmalmehrereSachengeänderthaben

  33. Wiefindet man kausaleZusammenhänge? • RandomisiertekontrollierteStudien: • Die Behandlungwirdrandomisiert • Die Gruppensind gut vergleichbar • Kausalitätistrelativeinfach • Beobachtungsstudien: • Die VersuchspersonenwählenihreBehandlungselber • Die Gruppensindschlechtvergleichbar • Kausalitätistschwierig

  34. RandomisiertekontrollierteStudiennichtimmermöglich • EinerandomisiertekontrollierteStudieistabernichtimmermöglichoderpraktisch. • Beispiele: • Rauchen • Gen-Knockout Experimente • Wiefindet man kausaleZusammenhängeausBeobachtungsstudien?

  35. EinAnsatz: konstruierevergleichbareSubgruppen • Beispiel: FrühstückodernurKaffee • Statistisch: Man kontrolliert/adjustiertfürdieseFaktoren • Schwierigkeit: • FürwelcheFaktoren muss man das machen / nichtmachen? • Die Antworthängt von der kausalenStruktur ab. Man muss AnnahmenüberdieseStrukturtreffen. Wenig Stress Viel Sport Gesunde Snacks …. Wenig Stress Viel Sport Gesunde Snacks ….

  36. Beispiel: Rauchen • EinerandomisiertekontrollierteStudie war nichtmöglich • Jetztist man wirklichüberzeugt, dassRauchenLungenkrebsverursacht • Man hat kontrolliertfür: • Stress • Geschlecht • Ernährung • Alkoholkonsum • …. • Es hat auchsehrgeholfen, dass man den biologischenMechanismusverstanden hat

  37. Take home message • ErsteFrage: Wiewurden die Datengesammelt? • RandomisiertekontrollierteStudie: • Kausalitätistrelativeinfach • Beobachtungsstudie: • Kausalitätistvielschwieriger • FürwelcheFaktorenwurdekontrolliert? • Gibtes alternative Erklärungenfür die Resultate? • BeiBeobachtungsstudienbrauchteszusätzlicheAnnahmen. Die kann man oft nichttesten, weshalb man nie auf das NiveaueinerrandomisiertenkontrolliertenStudiekommt. Aber man kannmitmodernenstatistischenMethoden das meisteaus den Datenherausholen.

  38. EinigeFragestellungen in meinerForschung • Wiefindet man kausaleZusammenhängeausBeobachtungsstudien? • Oft gibteswichtigeFaktoren, die nichtgemessenwurden. Wiekann man damitumgehen? • Die kausalenStrukturenkann man mittelsGraphendarstellen. Wiekann man solcheGraphenschätzen? Was sind die Eigenschaften der verschiedenenSchätzmethoden? • In manchenSituationengibtessehrvieleVariablen und wenigBeobachtungen(Beispiel: Gen-Expressionsdaten). Wiekann man in solchenFällenvorgehen?

  39. Beispiel: Genregulationsnetzwerk von Hefe • Daten: • Beobachtungsstudiemit Gen-Expressionsdaten: • 5000 Gene • 63 Hefe-Organismen • Methode: • WirtreffengewisseAnnahmen • Wirschätzen die kausaleStruktur / den Graphen • Wirschätzen die kausalenEffekte • Validierung: • WirvergleichenunsereResultatemitGen-Knockout Experimenten

  40. Wirkönnen die grossenkausalenEffektebesservorhersagen (Nature Methods, 2010) • MöglicheAnwendung: Versuchsplanung

  41. Referenzen • Paper on randomization tests:M.D. Ernst (2004). Permutation methods: a basis for exact inference. Statistical Science, volume 19, pages 676-685. • Applet randomization test:http://www.rossmanchance.com/applets/randomization20/Randomization.html • My favorite book on Introductory Statistics: Freedman, Pisani and Purves(2007). Statistics. 4th edition. Norton, New York • Rice Virtual Lab of Statistics (simulations, demonstrations): http://onlinestatbook.com/rvls.html • Data and story library: http://lib.stat.cmu.edu/DASL/ • The year of statistics: http://www.statistics2013.org/ • Conference ArsConjectandi (with public lecture): http://www.statoo.ch/bernoulli13/

  42. Danke!

More Related