1 / 19

p-value

Проверка множественных гипотез : p-values, permutation test, FDR – основные идеи ( на уровне махания руками ). p-value. Философский подход : всё плохо : НУЛЕВАЯ ГИПОТЕЗА. ‘cdf’ = Cumulative Distribution Function. P-values & Bayesian paradigm. p-value – это условная вероятность, годится!

ranger
Download Presentation

p-value

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Проверка множественных гипотез: p-values, permutation test, FDR – основные идеи (на уровне махания руками)

  2. p-value Философский подход: всё плохо: НУЛЕВАЯ ГИПОТЕЗА ‘cdf’ = Cumulative Distribution Function

  3. P-values & Bayesian paradigm • p-value – это условная вероятность, годится! • Условная вероятность ЧЕГО? Один исход vs хвост • Нормировка

  4. P-value • Параметрические тесты • Непараметрические • Комбинаторные (Фишер) • Пермутации

  5. Точный тест Фишера Удивительное – рядом. Нам нужен p-value(OR) а мы его считаем как сумму числа способов разложить истории болезней по ящикам.

  6. Тест Фишера: почему это работает? • Интуиция – какие события вообще бывают. • Правильная параметризация – со значением написанным в уголке монотонно меняются и ассоциация, и число способов маркировки историй болезни. • Легко считается стат. сумма

  7. Дискриминационные задачи Конфетки и не-конфетки Ошибки первого и второго рода. I : FP Не-конфетку приняли за конфетку II : Конфетку не признали. Мощность – 1-p(II)

  8. Лирическое отступление p-values, посчитанные из распределения случайной величины, распределены равномерно

  9. Лирическое отступление 2-го порядка: преобразование плотности распределения ξ – случайная величина; ρ(ξ) – плотность её распределения; g(ξ) – функция этой случайной величины; ρ(g(ξ)) – её плотность

  10. Лирическое отступление p-values, посчитанные из распределения случайной величины, всегда распределены равномерно

  11. Лирическое отступление и определение p-value Вычисленная из плоского распределения вероятность того, что ξ более или так же маргинальна как ξ0, то есть обладает меньшим или равным p-value, совпадает с определением p-value.

  12. Множественность гипотез Пусть мы получили результат с хорошим p-value. И что? Результаты серии N экспериментов: Вспоминаем лирическое отступление: это pi – они же вероятности оказаться слева от pi ЛО 0≤p1 ≤ p2 ≤ p3 ≤ p4 ≤ …….. ≤ pN Бонферрони: все p умножить на N Bland, J. M. and D. G. Altman (1995). Multiple significance tests: the bonferroni method. BMJ (Clinical Research Ed.) 310 (6973), 170. PMID: 7833759.

  13. Контроль частоты ошибок ло 0≤p1 ≤ p2 ≤ p3 ≤ p4 ≤ …….. ≤ pN Контроль частотыошибок: хочется назвать номер n, такой что все эксперименты с i ≤n нас устраивают, а остальные – нет. Зададим число α: вероятностьтого, что хотя бы один результат из хороших получен случайно, не превосходит α. max i: Npi ≤ α • Чиним ошибку 1 рода, получаем 2 рода – слишком строгий отбор (теряем мощность). • Независимость (below: WY) • А что мы вообще хотим от этой серии экспериментов? (below: FDR) FWER : FamilyWise Error rate – ни одного урода в семье!!! Семья – это те, что прошли тест Говоря точнее, α – это вероятность семьи с уродом. Это – тот же Бонферрони

  14. Пермутациипо Westfall-Young Хочу другие p-values, и пусть они уже знают про множественность гипотез, а про независимость испытаний их вообще не волнует! Westfall, P. H. and S. S. Young (1993). Resampling-based multiple testing. John Wiley andSons. 0≤p1 ≤ p2 ≤ p3 ≤ p4 ≤ …….. ≤pN– наши p-values Перемешиваем исходные данные M раз так, чтобы они стали как можно менее осмысленными, но выглядели как исходные. 0≤p11 ≤ p12 ≤ p13 ≤ p14 ≤ …….. ≤ p1N 0≤p21 ≤ p22 ≤ p23 ≤ p24 ≤ …….. ≤ p2N 0≤p31 ≤ p32 ≤ p33 ≤ p34 ≤ …….. ≤ p3N ….. ….. ….. ….. ….. ….. ….. ….. ….. 0≤pM1 ≤ pM2 ≤ pM3 ≤ pM4 ≤ … ≤ pMN ОЧЕНЬ МЕДЛЕННО!

  15. FDR Тест был применён к куче единичных испытаний. Некоторые из них прошли тест, некоторые нет. Некоторые были на самом деле сигналом, некоторые – шумом. FDR =E(FP/(FP+TP)) p = E(FP/(FP+TN)) Для оценки p-value было достаточно знать нулевую модель (она же шум). Для FDR – ещё и модель сигнала.

  16. Benjamini, Hochberg 0 ≤ p1 ≤ p2 ≤ p3 ≤ p3 ≤ p4 ≤ …….. ≤ pN Мы хотим контролировать FDR на уровне α. max i : Npi / i ≤ α i – это число тех, кто прошёл тест, то есть FP+TP Npi - оценка FP ; как и Бонферрони, предполагает независимость. Benjamini, Y. and Y. Hochberg (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B (Methodological) 57 (1), 289-300.

  17. Storey, Tibshirani Это наблюдённое распределение (генов). Значения пересчитаны в p-values исходя из предположительной модели шума.Общая площадь под графиком, естественно, 1 Вспомним лирическое отступление. Правый хвост (правее γ) распределения p-values содержит почти только шум. Теперь мы можем приблизительно разделить сигнал и шум!!! Storey, J. D. and R. Tibshirani (2003, August). Statistical significance for genomewide studies. Proceedings of the National Academy of Sciences of the United States of America 100 (16), 9440{9445. PMID: 12883005.

  18. Миронов S1 ≥ S2 ≥ S3 ≥ ≥…. ≥ SN p(S1) ≤ p(S2) ≤ p(S3) ≤ …. ≤ p(SN) p(Si)=P(S ≥ Si) для нулевой гипотезы Выбираем порог i, который отделит ‘сигнал’ 1..i от ‘шума’i+1..N Модель: N испытаний. Успех – побили Si. Успехов больше или равно i. Выбиремиi : P(i) = P(как минимум i значений S из N оказались ≥ Si) минимальна. Olga V. Kalinina, Pavel S. Novichkov, Andrey A. Mironov, Mikhail S. Gelfand, and Aleksandra B. Rakhmaninova. SDPpred: a tool for prediction of amino acid residues that determine differences in functional specificity of homologous proteins// Nucleic Acids Res. 2004 July 1; 32(Web Server issue): W424–W428. doi: 10.1093/nar/gkh391. PMCID: PMC441529

  19. Кажется, всё. Спасибо Андрею Миронову, Кате Ермаковой и Майку Оксу.

More Related