The Element of Statistical Learning Data Mining, Inference and Prediction

Trevor Hastie, Robert TibshiraniJerome Friedman The Element of Statistical LearningData Mining, Inference and Prediction Model Assessment and Selection Ocena i wybór modelu Marta Leniewska

Wstęp • X – wektor wejść, Y – wyjście ilościowe, G – wyjście jakościowe (X), (X)– model – przewidywane wyjście • Funkcja straty Zmienne ciągłe: L(Y, (X)) = Zmienne dyskretne: strata 0-1 logarytmiczna

Błędy • Oczekiwany błąd predykcji: Err = E[L(Y, (X))] Err = E[L(Y, (X))], Err = E[L(Y, (X))] • Błąd na zbiorze trenującym

Bias, wariancja i złożoność modelu • Wzrost złożoności modelu • Spadek biasu • Wzrost wariancji • err jako estymator Err: overfit

Bias, wariancja i złożoność modelu

Czy wystarcza danych wejściowych? • TAK: Podział na: (N, sygnał/szum, ) • zbiór trenujący modele, 50% • zbiór do weryfikacji modeli, 25% • zbiór testujący dla wybranego modelu (Err) 25% • NIE • Weryfikacja analityczna • Efektywne powtórne wykorzystanie próbki

Err jako bias i wariancja • Funkcja straty – kwadratowa • błąd nieredukowalny+bias2+Wariancja • k najbliższych sąsiadów, złożoność~1/k

Model liniowy, a ridge regression • Ridge regression: bias2 = model bias2 + estimation bias2

Bias i wariancja

Optymizm błędu na zbiorze trenującym • <= Err • Dla modelu liniowego:

AIC – Kryterium informacyjne Akaike • Dla kwadratowej funkcji straty – Cp statystyka: • AIC – ogólniej, dla logarytmicznej funkcji straty: Dla zbioru modeli

Efektywna ilość parametrów • Dla liniowej regresji, także z funkcjami bazowymi i funkcją kary Efekt. Il. Param. d(S) = trace(S) • Dla liniowej regresji: trace(S)=p

BIC –Bayes’owskie kryterium informacyjne • AIC: 2d/N BIC: (logN)d/N N>e2 ~ 7.4 • Mm – modele m=1,...,M, z parametrami Z – dane trenujące • Współczynnik Bayes’a – wpływ danych

BIC c.d. • Pr(Mm)=const • BIC=-2log Pr(Z|Mm) • Min BIC(m) ~ max Pr(Mm|Z)

AIC, a BIC • BIC – asymptotycznie spójne AIC – za skomplikowane N skończone • BIC – za proste

Minimalna długość kodu (MDL) • MDL=BIC na podstawie zasad kompresji danych • Dana – wiadomość do przesłania • Model – sposób kompresji danych • Wybrać model dający najkrótszy kod • Przykład kodu prefiksowego: m=4, A=2 wiadomość z1 z2 z3 z4 kod 0 10 110 111

Minimalna długość kodu c.d. • Twierdzenie Shanon’a: należy wybrać dlugości czyli • Wybór modelu: M, ,Z=(X,y), wiadomości to y • length = -log Pr(y|M) = -BIC min length ~ max Pr(M|y)

Wymiar Vapnika-Chervonenkis’a • VC – miara złożoności modelu • Funkcje indykatora: • ~ p+1 • ~ p • VC {f(x,)}– największa ilość punktów w pewnej konfiguracji które mogą być podzielone na 2 klasy • VC {g(x,)} funkcji rzeczywistych to VC {I(g(x, )->0)}

VC – c.d. • {f(x,)}, N przykładów, VC=h, z Pr  1-: Funkcja straty 0-1 Funkcja straty kwadratowa • op ~ h, ~ 1/N (podobnie jak w AIC: d/N)

Strukturalna minimalizacja ryzyka? • Dopasować ciąg modeli o rosnącym VC dim i wybrać model o najmniejszym górnym ograniczeniu... • AIC, BIC, SRM

Cross-Validation • K=5 train | train | test | train | train • k: {1,...,N}  {1,...,K} {f(x,)} • Wybór K • N • 5

(1-Err) vs rozmiar zbioru trenującego • K=5 • N=200, 160 • N=50, 40

Uogólniona CV (GCV) • Aproksymuje CV dla liniowej regresji dla K=N. • Dla wielu metod liniowych:

Metody Bootstrap • Z={xi, yi} Z B=100 • Wariancja S(Z) • Estymacja Err Z*j – trenujące, Z - testujący |Z*j|=N Z*1 Z*2 Z*B

Bootstrap – overfit • 1- najbliższy sąsiad, 2 klasy, Err = 0.5 • Lepszy estymator metodą bootstrap:

Bootstrap c.d. • Różnych obserwacji w Z*j jest ok. 0.632N ~ CV dla K=2 • Lepszy estymator: udział err zmniejsza bias. • Znowu problem z overfit: Err=0.5

Bootstrap c.d. •  = Err(overfit) brak informacji • Przykład – klasyfikacja, 2 klasy - częstość wyjść postaci 1 - częstość przewidywanych wyjść postaci 1 • 1 najbliższy sąsiad: • Kilka klas:

Bootstrap c.d. • Względny overfit: • Nie ma overfit: 0 • Jest: 1 • „Najlepszy” estymator: • Nie ma overfit: • Jest:

Bootstrap – podsumowanie Zbiory train i test mają wspólne obserwacje Występuje bias Zaniża dla overfit

CV vs Bootstrap • CV – prostsza, estymator bez biasu • Bootstrap – mniejsza wariancja • CV i Bootstrap vs AIC i BIC – więcej liczenia ale lepsza estymacja nawet o 30%

The Element of Statistical Learning Data Mining, Inference and Prediction