1 / 20

VII EKSPLORACJA DANYCH

VII EKSPLORACJA DANYCH. Grupowanie danych: definicja i cel. Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów, które są podobne do siebie nawzajem i niepodobne do rekordów z innych grup.

vance
Download Presentation

VII EKSPLORACJA DANYCH

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Grupowanie oznacza grupowanie rekordów, obserwacji lub przypadków w klasy podobnych obiektów. Grupa jest zbiorem rekordów, które są podobne do siebie nawzajem i niepodobne do rekordów z innych grup. Grupowanie różni się od klasyfikacji tym, że w przypadku grupowania nie ma zmiennej celu. Zadanie grupowania nie próbuje klasyfikować, szacować lub przewidywać wartości zmiennej celu. Zamiast tego, algorytm grupowania próbuje podzielić cały zbiór danych w stosunkowo zgodne podgrupy lub grupy, przy czym podobieństwo rekordów wewnątrz grup jest maksymalizowane, a podobieństwo do rekordów spoza grupy minimalizowane.

  2. VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Grupowanie jest często wykorzystywane jako krok wstępny do procesu eksploracji danych, z wynikowymi grupami użytymi jako dane wejściowe do innej techniki, takiej jak sieci neuronowe. Z powodu dużego rozmiaru wielu baz danych, często jest korzystnie najpierw przeprowadzić analizę skupień, aby zredukować przestrzeń przeszukiwań dla algorytmów.

  3. VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Cel grupowania: • poznanie rozkładu przykładów (danych) • wyróżnienie przypadków, tych, które można uznać za typowe i tych, które za wyjątki • znajdowanie naturalnego podziału danych na istotne podgrupy • dekompozycja danych na części, które są łatwiejsze do opisania – bardziej jednolite • uzupełnianie brakującej informacji

  4. VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Przykłady zadań grupowania w badaniach: • redukcję wymiarów, gdy zbiór ma setki atrybutów • grupowanie ekspresji genów, gdzie bardzo dużo genów może wykazywać podobne zachowanie Przykłady zadań grupowania w biznesie: • namierzenie grupy potencjalnych klientów pewnego produktu z niszy rynkowej wyprodukowanego przez małą firmę z małym budżetem reklamowym • podział zachowań finansowych na korzystne i niepewne w celu kontroli obliczeń

  5. VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel Przykłady zadań grupowania w marketingu: • identyfikacja grup ubezpieczonych w towarzystwach ubezpieczeniowych generujących wysokie koszty napraw Przykłady zadań grupowania w geodezji i kartografii: • identyfikacja obszarów o podobnych glebach na podstawie zdjęć z obserwacji Ziemi • lokalizacje epicentrów trzęsień Ziemi, na podstawie zaobserwowanych defektów kontynentów • rozpoznanie potrzeb rozwojowych miasta, na podstawie grupowania domów o określonej wartości, lokalizacji, itp.

  6. VII EKSPLORACJA DANYCH Grupowanie danych: metody Metody grupowania: • metody hierarchiczne, polegają na łączeniu pojedynczych elementów, wg założonego kryterium odległości (elementy podobne) • metody niehierarchiczne, polegają na wstępnym podzieleniu zbioru na określoną liczbę klas, a następnie modyfikowaniu podziału (przez przenoszenie elementów z grupy do grupy) prowadzącym do poprawy tego podziału

  7. VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Uogólniony algorytm metod hierarchicznych: • początkowo każda obserwacja traktowana jest jako osobne skupienie • następnie tworzona jest macierz odległości pomiędzy kolejnymi obserwacjami • określa się odległości pomiędzy poszczególnymi skupieniami i na ich podstawie tworzy się nowe skupienia obiektów • wyniki przedstawiane są za pomocą drzewka połączeń

  8. VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Wybór metody aglomeracji: • metoda najbliższego sąsiada • metoda najdalszego sąsiada • metoda średniej grupowej • metoda środka ciężkości • metoda mediany (ważonych środków ciężkości)

  9. VII EKSPLORACJA DANYCH Grupowanie danych: metody hierarchiczne Wady metod hierarchicznych • brak oczywistego kryterium stopu dla uzyskania względnie jednorodnych skupień • otrzymane raz skupienie nie może być rozłączone, czyli ewentualny wcześniejszy błąd nie może być skorygowany • w metodach aglomeracyjnych nie jest znana z góry ani liczba grup (skupień) ani liczba obiektów w poszczególnych grupach

  10. VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Algorytm k – średnich: procedura postępowania • wybieramy losowo tyle punktów w przestrzeni, na ile grup dzielimy zbiór danych • obliczamy odległości wszystkich elementów zbioru od wylosowanych punktów • grupujemy zgodnie z bliskością elementów zbioru od punktów początkowych • obliczamy centroidy grup jako średnie elementów grupy • powtarzamy punkty 2 i 3 aż do osiągnięcia stabilności

  11. VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich

  12. ZPG W = ZWG VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wskaźnik jakości algorytmu k - średnich • ZPG – zmienność pomiędzy grupami • ZWG – zmienność wewnątrz grupy

  13. ZPG W = ZWG k ZWG = ΣΣ d(mij, ci) i=1 j VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wskaźnik jakości algorytmu k - średnich m12 m11 m21 m13 c1 m14 m15 c2 ZPG = d (c1, c2) m26

  14. VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Zalety algorytmu k - średnich • sprawny – η(nkt), gdzie n jest liczbą obserwacji, k jest liczbą klasterów, a t jest liczbą iteracji, zazwyczaj k, t << n • obliczenia kończą się po osiągnięciu minimum lokalnego • łatwy w zaprogramowaniu

  15. VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wady algorytmu k - średnich • możliwość stosowania jedynie do danych, dla których możliwe jest obliczenie średnich; wyłącza to zbiory z danymi kategorycznymi • konieczność wstępnego określenia liczby k (liczby grup) przed rozpoczęciem modelowania • niezdolność do radzenia sobie z danymi zaszumionymi i z danymi odstającymi

  16. VII EKSPLORACJA DANYCH Grupowanie danych: algorytm k - średnich Wady algorytmu k - średnich • nie do zastosowania w przypadku, gdy modelowana grupa ma kształt wklęsły

  17. VII EKSPLORACJA DANYCH Grupowanie danych: definicja i cel

  18. VII EKSPLORACJA DANYCH Grupowanie danych: zastosowanie

  19. VII EKSPLORACJA DANYCH Grupowanie danych: zastosowanie

  20. VII EKSPLORACJA DANYCH Grupowanie danych: podsumowanie Uwaga: niezależnie od zastosowanej metody wszystkie podziały będą się mieścić pomiędzy dwoma skrajnymi przypadkami: • skrajny przypadek: wszystkie obiekty rozkładają się tak, że uzyskujemy skupienia jednoelementowe (zbiór n elementów dzielony jest na n skupień jednoelementowych) • skrajny przypadek: zbiór elementów jest tak jednorodny, że nie możliwe jest rozłożenie jego na podzbiory, tzn. otrzymujemy jedno skupienie n-elementowe

More Related