1 / 37

The Element of Statistical Learning Data Mining, Inference and Prediction

Trevor Hastie, Robert Tibshirani Jerome Friedman. The Element of Statistical Learning Data Mining, Inference and Prediction. Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM. Marta Leniewska. Przykład klasteryzacji. Reprezentacja danych x 1 , …, x N.

gwen
Download Presentation

The Element of Statistical Learning Data Mining, Inference and Prediction

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Trevor Hastie, Robert TibshiraniJerome Friedman The Element of Statistical LearningData Mining, Inference and Prediction Cluster Analysis and Self-Organizing Maps Analiza skupień i metody SOM Marta Leniewska

  2. Przykład klasteryzacji

  3. Reprezentacja danych x1, …, xN • Macierze podobieństwa D (N×N) • Symetryczne, dij0, dii = 0, • Obiekty xi Rp • Różnica na atrybucie • Atrybut ilościowy: • Porządkowy: zamiana na ilościowy • Nominalny: macierze podobieństwa L (M×M) między wartościami atrybutu

  4. Różnice między obiektami • Wpływ atrybutu Xj na (średnia różnica między obiektami) błąd kwadratowy: - estymator Var(Xj) z próby • Równe wpływy atrybutów: • Wyróżnianie pewnych atrybutów • Brakujące wartości atrybutów: pomijanie, wprowadzanie, nowa wartość zmiennej

  5. Algorytmy kombinatoryczne • Ustalone z góry K < N klastrów • Cel: funkcja k = C(i)minimalizująca rozrzut wewn. = W(C) + B(C) • Ilość podziałów N danych na K klastrów • Liczba Stirlinga 2 rodz. • S(10,4) = 34.105S(19,4) 1010 • Algorytmy znajdujące lokalne minima

  6. Algorytm K średnich • Założenia: atrybuty ilościowe, miara zróżnicowania: kwadrat odległości euklidesowej, Nk – ilość elementów klastra k • Kryterium: • Znaleźć min centra mk dla wybranych klastrów C (średnie), koszt ~ (ilość elementów klastra) • Znaleźć min podział na klastry C • Do braku zmian C, zbiega do min lokalnego

  7. Inne wersje K średnich • Wersja probabilistyczna: algorytm EM – dopasowanie do modelu mieszaniny rozkładów Gaussa. • Wersja ulepszona: żadna pojedyncza zmiana przypisania obserwacji do klastra nie polepszy wyniku.

  8. Zastosowanie – kompresja • Podział na bloki po m pixeli – wektory w Rm • Aproksymacja bloków centrami klastrów • Obraz skompresowany: log2K na blok + mK czyli log2K/8m oryginału • Lepiej przy zastosowaniu teorii Shannona • Działa bo wiele bloków wygląda tak samo • Miara deformacji obrazu - straty

  9. Przykład Sir Ronald A. Fisher (1890-1962) oryginał K = 200, m = 4, 0,239 oryginału, Deformacja: 0,89 K = 4, m = 4, 0,063 oryginału, Deformacja: 16,95

  10. Rozmyte K średnich • Rozmyty pseudopodział – rozmyty K podział P = {A1, ..., AK} • Przykład N=3, K=2 P = {A1, A2} A1 = 0.6/x1 + 1/x2 + 0.1/x3 A2 = 0.4/x1 + 0/x2 + 0.9/x3 • 1.0 • 0.8 • 0.6 • 0.4 • 0.2 • 0.0 x1 x2 x3

  11. Rozmyte K średnich • Centrum rozmytego klastra Ai • v  R, v > 1 • Minimalizacja wskaźnika • Znaleźć centra dla wybranych klastrów P(t-1) • Znaleźć podział na klastry P(t) zmiana Ak(xi) • Kryterium stopu:

  12. xi1 C.d. x3 x15 x6 x12 • v 1, uogólnienie K średnich • v , bardziej rozmyty • zbieżny dla każdego v (1, ) • Przykład • K = 2 • v = 1,25 x2 x7 x8 x9 x5 x11 x14 x4 x10 x1 x13 xi2 i A1(xi) A2(xi)

  13. Algorytm K medoidów • Medoid – element centralny • Uogólnienie K średnich na dowolne atrybuty i odległości. • Kryterium: • Znaleźć min centra xikdla wybranych klastrów C (medoidy) koszt dla klastra ~ (ilość elementów klastra)2 • Znaleźć min podział na klastry C

  14. Przykład K medoidów 12 krajów K = 3 USA, ISR, FRA, EGY, BEL ZAI, IND, BRA YUG, USS, CUB, CHI

  15. Inna wersja – CLARA • Kilka (np. m = 5) próbek liczności 40+2K • Dla każdej próbki – minimalizacja bezp. przez iteracyjne zmiany medoidów (PAM) Koszt iteracji = O(K(N-K)2) • Wybór tego z m układów medoidów który jest najlepszy dla wszystkich danych

  16. Kwestie praktyczne • Wybór K* początkowych centrów • Podać centra lub indeksy lub koder C • Losowo lub krokowo minimalizując kryterium • Estymacja K* • Rozrzut w klastrach ~ 1/K • Rozrzut dla K<K* i dla K>K* • K* odpowiada zgięciu wykresu

  17. Statystyka Gap 1,5 1,0 0,5 0,0

  18. Metody hierarchiczne • Nie wymagają K, tylko miary odległości między grupami obserwacji • Klastry na poziomie M tworzone przez łączenie klastrów z poziomu M-1 • Poziom min: N klastrów {xi}, poziom max: {x1, ..., xN} • Strategie aglomeracyjne i dzielące, N poziomów • Uporządkowany ciąg poziomów ~ podziałów • Wybór poziomu np. statystyka Gap

  19. Dendrogram

  20. Dendrogram jako opis danych • Ocena reprezentacyjności: wspólczynnik korelacji między dii’ a Cii’ • Cii • wysokość pierwszego wspólnego klastra • N różnych na N(N-1)/2 • Cii’ <= {Cik, Ci’k} (trójkąty równoramienne)

  21. Metody aglomeracyjne • Od singletonów, do 1 klastra • Miary odległości między klastrami G i H: • Single Linkage – najmniejsza odległość • Complete Linkage – największa odległość • Group Avarage – średnia odległość

  22. GA, CL, SL - dendrogramy

  23. Przykład

  24. Metody dzielące • Gdy chcemy otrzymać mało klastrów • Ciąg podziałów metodą K=2 średnich/medoidów • Zależy od początkowej konfiguracji w każdym kroku • Nie zawsze otrzymamy własność monotoniczności • Albo • Obiekt najbardziej odległy od reszty w klastrze G do klastra H • Obserwacje bliższe H niż G: najbliższa H do H • Klaster do podziału – max średnica, lub średni rozrzut wewnętrzny • Do singletonów lub nierozróżnialności w klastrach

  25. Hierarchiczne metody rozmyte • Rozmyta relacja równoważności R na X2 R(x,x) = 1 R(x,y) = R(y,x)x,yX x,zX • -cut rozmytego zbioru A: A = {x | A(x)  } • 0,2A = {x1, x2}, 0,4A = {x1} A(x) • 0.4 • 0.2 0.0 x1 x2

  26. Hierarchiczne metody rozmyte • R to crisp relacja równoważności – pary podobne   • Znaleźć odpowiednią relację R (lub relację kompatybilności i jej tranzytywne domknięcie) gdzie q> 0, • Tranzytywne domknięcie R to RT = R(n-1)

  27. Przykład dla q=2 xi2 x3 x2 x4 x1 x5 xi1

  28. Self-Organizing Maps • Wersja K średnich – prototypy na 1 lub 2 wymiarowej rozmaitości w przestrzeni atrybutów, mapowanie obserwacji na rozmaitość • Macierz K prototypów mjRp, o współrzędnych lj R2 • Inicjalizacja – np. na płaszczyźnie wyznaczonej metodą głównych składowych • Regularne rozmieszczenie prototypów na płaszczyźnie • Wyginanie płaszczyzny

  29. Algorytm SOM • Znajdź mj najbliższy xi w Rp • Przesuń bliskich sąsiadów mj wg. lj do xi • Wskaźnik uczenia  maleje od 1 do 0 • Próg r maleje od R do 1 • Albo: przesunięcie zależne od odległości do mj • Sąsiedztwo mj zawiera tylko mj  K średnich

  30. 1. 3. 2.

  31. SOM aproksymacją K średnich • Porównać błędy rekonstrukcji: • Przykład: porównanie z K = 25 średnich

  32. Zastosowanie http://websom.hut.fi/websom WEBSOM – rzutowanie artykułów z newsgroup wg. tematyki • artykuł jako wektor wystąpień ustalonych terminów • opcja zoom

  33. Średnica zbioru punktów • • • • • • • • • • • • • • • • •

  34. Średnia zbioru punktów • • • • • • • •

  35. Medoid zbioru punktów • • • • • • • •

  36. Odległość międzygrupowa

More Related