1 / 30

The Element of Statistical Learning Data Mining, Inference and Prediction

Trevor Hastie, Robert Tibshirani Jerome Friedman. The Element of Statistical Learning Data Mining, Inference and Prediction. Model Assessment and Selection Ocena i wybór modelu. Marta Leniewska. Wstęp. X – wektor wejść, Y – wyjście ilościowe, G – wyjście jakościowe

Download Presentation

The Element of Statistical Learning Data Mining, Inference and Prediction

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Trevor Hastie, Robert TibshiraniJerome Friedman The Element of Statistical LearningData Mining, Inference and Prediction Model Assessment and Selection Ocena i wybór modelu Marta Leniewska

  2. Wstęp • X – wektor wejść, Y – wyjście ilościowe, G – wyjście jakościowe (X), (X)– model – przewidywane wyjście • Funkcja straty Zmienne ciągłe: L(Y, (X)) = Zmienne dyskretne: strata 0-1 logarytmiczna

  3. Błędy • Oczekiwany błąd predykcji: Err = E[L(Y, (X))] Err = E[L(Y, (X))], Err = E[L(Y, (X))] • Błąd na zbiorze trenującym

  4. Bias, wariancja i złożoność modelu • Wzrost złożoności modelu • Spadek biasu • Wzrost wariancji • err jako estymator Err: overfit

  5. Bias, wariancja i złożoność modelu

  6. Czy wystarcza danych wejściowych? • TAK: Podział na: (N, sygnał/szum, ) • zbiór trenujący modele, 50% • zbiór do weryfikacji modeli, 25% • zbiór testujący dla wybranego modelu (Err) 25% • NIE • Weryfikacja analityczna • Efektywne powtórne wykorzystanie próbki

  7. Err jako bias i wariancja • Funkcja straty – kwadratowa • błąd nieredukowalny+bias2+Wariancja • k najbliższych sąsiadów, złożoność~1/k

  8. Model liniowy, a ridge regression • Ridge regression: bias2 = model bias2 + estimation bias2

  9. Bias i wariancja

  10. Optymizm błędu na zbiorze trenującym • <= Err • Dla modelu liniowego:

  11. AIC – Kryterium informacyjne Akaike • Dla kwadratowej funkcji straty – Cp statystyka: • AIC – ogólniej, dla logarytmicznej funkcji straty: Dla zbioru modeli

  12. Efektywna ilość parametrów • Dla liniowej regresji, także z funkcjami bazowymi i funkcją kary Efekt. Il. Param. d(S) = trace(S) • Dla liniowej regresji: trace(S)=p

  13. BIC –Bayes’owskie kryterium informacyjne • AIC: 2d/N BIC: (logN)d/N N>e2 ~ 7.4 • Mm – modele m=1,...,M, z parametrami Z – dane trenujące • Współczynnik Bayes’a – wpływ danych

  14. BIC c.d. • Pr(Mm)=const • BIC=-2log Pr(Z|Mm) • Min BIC(m) ~ max Pr(Mm|Z)

  15. AIC, a BIC • BIC – asymptotycznie spójne AIC – za skomplikowane N skończone • BIC – za proste

  16. Minimalna długość kodu (MDL) • MDL=BIC na podstawie zasad kompresji danych • Dana – wiadomość do przesłania • Model – sposób kompresji danych • Wybrać model dający najkrótszy kod • Przykład kodu prefiksowego: m=4, A=2 wiadomość z1 z2 z3 z4 kod 0 10 110 111

  17. Minimalna długość kodu c.d. • Twierdzenie Shanon’a: należy wybrać dlugości czyli • Wybór modelu: M, ,Z=(X,y), wiadomości to y • length = -log Pr(y|M) = -BIC min length ~ max Pr(M|y)

  18. Wymiar Vapnika-Chervonenkis’a • VC – miara złożoności modelu • Funkcje indykatora: • ~ p+1 • ~ p • VC {f(x,)}– największa ilość punktów w pewnej konfiguracji które mogą być podzielone na 2 klasy • VC {g(x,)} funkcji rzeczywistych to VC {I(g(x, )->0)}

  19. VC – c.d. • {f(x,)}, N przykładów, VC=h, z Pr  1-: Funkcja straty 0-1 Funkcja straty kwadratowa • op ~ h, ~ 1/N (podobnie jak w AIC: d/N)

  20. Strukturalna minimalizacja ryzyka? • Dopasować ciąg modeli o rosnącym VC dim i wybrać model o najmniejszym górnym ograniczeniu... • AIC, BIC, SRM

  21. Cross-Validation • K=5 train | train | test | train | train • k: {1,...,N}  {1,...,K} {f(x,)} • Wybór K • N • 5

  22. (1-Err) vs rozmiar zbioru trenującego • K=5 • N=200, 160 • N=50, 40

  23. Uogólniona CV (GCV) • Aproksymuje CV dla liniowej regresji dla K=N. • Dla wielu metod liniowych:

  24. Metody Bootstrap • Z={xi, yi} Z B=100 • Wariancja S(Z) • Estymacja Err Z*j – trenujące, Z - testujący |Z*j|=N Z*1 Z*2 Z*B

  25. Bootstrap – overfit • 1- najbliższy sąsiad, 2 klasy, Err = 0.5 • Lepszy estymator metodą bootstrap:

  26. Bootstrap c.d. • Różnych obserwacji w Z*j jest ok. 0.632N ~ CV dla K=2 • Lepszy estymator: udział err zmniejsza bias. • Znowu problem z overfit: Err=0.5

  27. Bootstrap c.d. •  = Err(overfit) brak informacji • Przykład – klasyfikacja, 2 klasy - częstość wyjść postaci 1 - częstość przewidywanych wyjść postaci 1 • 1 najbliższy sąsiad: • Kilka klas:

  28. Bootstrap c.d. • Względny overfit: • Nie ma overfit: 0 • Jest: 1 • „Najlepszy” estymator: • Nie ma overfit: • Jest:

  29. Bootstrap – podsumowanie Zbiory train i test mają wspólne obserwacje Występuje bias Zaniża dla overfit

  30. CV vs Bootstrap • CV – prostsza, estymator bez biasu • Bootstrap – mniejsza wariancja • CV i Bootstrap vs AIC i BIC – więcej liczenia ale lepsza estymacja nawet o 30%

More Related