1 / 33

Metody analizy i odkrywania wiedzy w niekompletynych zbiorach danych

Metody analizy i odkrywania wiedzy w niekompletynych zbiorach danych. Łukasz Ryniewicz 25.04.2007. Plan prezentacji. Typy niekompletności informacji Metody uzupełniania danych Statystyczne k-najbliższych sąsiadów, drzewa decyzyjne Metody analizy niekompletnych danych

yorick
Download Presentation

Metody analizy i odkrywania wiedzy w niekompletynych zbiorach danych

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metody analizy i odkrywania wiedzy w niekompletynych zbiorach danych Łukasz Ryniewicz 25.04.2007

  2. Plan prezentacji • Typy niekompletności informacji • Metody uzupełniania danych • Statystyczne • k-najbliższych sąsiadów, drzewa decyzyjne • Metody analizy niekompletnych danych • Rozmyte reguły asocjacyjne • Zbiory przybliżone i modyfikacje • Modyfikacje algorytmów

  3. Etapy eksploracji danych Analiza problemu dane Selekcja i czyszczenie danych dane wyselekcjonowane Transformacja danych • Wybór strategii co do badania danych • Konwersja • Dyskretyzacja • Zmiana reprezentacji z relacyjnej na transakcyjną dane przetworzone

  4. Etapy eksploracji danych Eksploracja danych • Wybór narzędzi • Wybór algorytmów • Zastosowania ich wzorce Przygotowanie wyników do oceny dane wygodne do analizowania Obróbka żeby było miłe dla oka Analiza wyników Zastosowanie uzyskanej wiedzy w praktyce

  5. Typy niepełności danych • Niepewność – gdy nie wiemy czy dane są poprawne • Niedokładność – np. gdy mamy dane w postaci przedziałów: 100-200, dane opisowe : dość ciepło • Niekompletność – nie znamy wartości atrybutu • Niespójność – np. jednemu obiektowi są przypisane różne wartości • Ignorancja – gdy mamy brak wiedzy

  6. Niekompletność • Brakujące dane – są możliwe do uzupełnienia • chwilowa – nie jest dostępna dana w momencie jej wstawiania • niedokładność urządzeń, metod – możliwe do oszacowania • Niedostępne dane • nie są możliwe do uzupełnienia, • gdy są instancje do których nie mają zastosowania wartości atrybutów (np. baza z polami: bramki, strzelcy w przypadku meczu bezbramkowego)

  7. Model transakcyjny danych U – zbiór obiektów A – zbiór atrybutów d - atrybut decyzyjny dziedzina - zbiór klas decyzyjnych

  8. Metody stosowane podczas transformacji danych • Usuwanie niekompletności danych • Pomijanie obiektów zawierających braki danych • W bazach traznsakcyjnych pomijanie brakującego atrybutu • Zastępowanie brakujących wartości • Użycie stałej – np. nowej nie występującej w zbiorze wartości danego atrybutu • Użycie mody, mediany, wartości średniej dla wartości danego atrybutu • Użycie metod data mining – np. k-najbliższych sąsiadów gdzie porównujemy obiekt z brakującą wartością z obiektami sąsiednimi i na ich podstawie odtwarzamy brakujący atrybut

  9. Metody statystyczne • Procedury oparte na kompletnych rekordach – gdy mało braków • Procedury ważące – ustawiane są wagi rekordów by zminimalizować odchylenia związane z brakami • Procedury oparte o uzupełnianie danych • Jawne w postaci formalnego modelu (średnia, mediana, regresja, badanie korelacji) • Niejawne ukierunkowane na algorytmy implikujące modele (uzupełnianie na podstawie podobieństw, zastępowanie innymi rekordami, zastępowanie stałymi) • Procedury oparte o modele – definiuje się model kompletnych danych i zależności są wyliczane na podstawie rozkładu prawdopodobieństw

  10. Metody statystyczne - przykład • Podziel zbiór U na klasy decyzyjne • Dla każdej klasy wyznacz za pomocą statystyki S • Dla każdego braku uzupełnij według przynależności do odpowiedniej klasy decyzyjnej

  11. k-najbliższych sąsiadów • Bazę – U dzielimy na 2 podzbiory • - przynajmniej 1 wartość atrybutu nie jest znana • - pozostałe • Dla każdego rekordu r należącego do znajdujemy k najbliższych sąsiadów z Odległość liczona tylko przy wykorzystaniu znanych w r atrybutów. Uzupełnienie braku (np. poprzez wyznaczenie mody z wartości atrybutów k sąsiadów i wstawienie jej do r)

  12. Drzewa decyzyjne • Bazę – U dzielimy na 2 podzbiory • - przynajmniej 1 wartość atrybutu nie jest znana • - pozostałe • Wyznaczamy zbiór atrybutów gdzie pojawiła sie wartość nieznana – • Dla każdego atrybutu a należącego do tworzymy drzewo decyzyjne na podstawie gdzie każda wartość a tworzy klasę decyzyjną • Klasyfikujemy rekord r z z brakującym atrybutem a do odpowiedniej klasy • W przypadku gdy rekord r ma więcej niż jeden brak to: • Dla braku a klasyfikacja • W r uzupełnienie braku tylko wtedy gdy osiągnięto liść • Powrót do 5.1 • Gdy nie osiągamy już liści klasyfikujemy na podstawie najbardziej licznego zbioru

  13. Metody stosowane na etapie odkrywania wiedzy • Użycie standardowych metod gdy przeprowadziliśmy już proces uzupełniania danych • Użycie zmodyfikowanych metod analizy pod kątem braków danych • Użycie metod używających podejście do danych i klasyfikacji zbiorów rozmytych i przybliżonych • Podejście probabilistycznie

  14. Reguły asocjacyjne oparte na zbiorach rozmytych • Dla każdego atrybutu jest definiowany zbiór lingwistycznych termów które określają jakieś pojęcie z dziedziny, np wysoki • jest reprezentowany przez zbiór rozmyty na dziedzinie A, ozn: d(A), o funkcji przynależności

  15. Reguły asocjacyjne oparte na zbiorach rozmytych • Stopień w jakim term charakteryzuje pewien rekord r to wartość funkcji przynależności: • Stopień w jakim zbiór termów charakteryzuje rekord r to: • Reprezentacja termów za pomocą zbiorów rozmytych pozwala obliczyć stopień gdy potrzebna wartość nie jest znana. Wtedy funkcja zwraca wartość ½

  16. Reguły asocjacyjne oparte na zbiorach rozmytych • Generacja reguł dla różnych atrybutów i w postaci: • Zamiast wsparcia jest liczona różnica między prawdopodobieństwami: -liczba termów zdefiniowana dla atrybutów Ai

  17. Reguły asocjacyjne oparte na zbiorach rozmytych • Jeżeli różnica ta jest statystycznie istotna, wtedy jest akceptowana taka reguła i jest obliczane zaufanie reguły

  18. Definicje reguł asocjacyjnych uwzględniające braki danych • Dane wykluczone Dis(X) • Obowiązująca baza vdb(X) • Rekord r jest wykluczony dla danego zbioru X jeśli zawiera przynajmniej jedną wartość nieznaną dla jednego atrybutu który znajduje się w zbiorze X. Zbiór tych rekordów – Dis(X),vdb(X) = U\Dis(X)

  19. Podejście probabilistyczne I • Nieznane wartości atrybutu są zastępowane przez wszystkie znane wartości. Każda wartość w zastępuje nieznaną daną dla której prawdopodobieństwo prob(w,a) jest równe względnej częstości jej występowaniu w wektorach dla których jest określona wartość tego atrybutu. • Wsparcie elementu elem(w,a) o wartości w z dziedziny atrybutu a dla pojedynczego rekordu r: • Wsparcie zbioru dla pojedynczego rekordu r: { 1 gdy r.a = w prob(w,a) gdy r.a = ? 0 w p. p.

  20. Podejście probabilistyczne II • Normalnie transakcja t wspiera zbiór X albo nie • Każdy element występujący w transakcji t wspieranej przez k-elementowy zbiór Zk wnosi 1/k do wartości całkowitego wsparcia zbioru Zk • Całkowita wartość wsparcia Zk jest sumą wsparć wnoszone przez poszczególne elementy • Znalezienie rozkładu prawdopodobieństwa na brakującym atrybucie, i wtedy przemnażamy wartość wnoszoną przez to prawdopodobieństwo • Zk={a,b,c} t={a,b,*} p(c)=3/5 => wsp(Zk)=1/3+1/3+(1/3)*(3/5)

  21. Podejścia wykorzystujące zbiory przybliżone – relacja nierozróżnialności Współczynnik aproksymacji: Używana w algorytmach generacji reguł indukcyjnych

  22. Podejścia wykorzystujące zbiory przybliżone – relacja nierozróżnialności Przybliżenia zbiorów klas decyzyjnych służy do utworzenia zbioru reguł decyzyjnych w postaci: Gdzie Relacja nierozróżnialności może być stosowana jedynie w kompletnych zbiorach, dlatego istnieją jej modyfikacje

  23. Podejścia wykorzystujące zbiory przybliżone - relacja tolerancji Używana przy uzupełnianiu braków Używana w algorytmach generacji reguł indukcyjnych

  24. Podejścia wykorzystujące zbiory przybliżone - relacja podobieństwa y podobny do x Dla każdego x są definiowane 2 klasy: • Elementów podobnych do x • Elementów do których x jest podobny Używana w algorytmach generacji reguł indukcyjnych

  25. Podejścia wykorzystujące zbiory przybliżone – rozmyta relacja podobieństwa • Intuicja- x2 jest bardziej podobny do x1 niż x3 do x1 • Zwykła relacja tolerancji nie rozróżnia • Zakładamy że pod brakującymi wartościami dla ustalonego atrybutu może występować znana wartość z jednakowym prawdopodobieństwem • Podobieństwo obiektów x,y względem a można zapisać: { I możemy zapisać rozmytą relacje podobieństwa:

  26. Metoda kwadratowa • Metoda polega na klasyfikacji n>2 klas decyzyjnych • Tworzone są klasyfikatory niezależne Cij których celem jest stwierdzenie czy nowy obiekt należy do klasy i-tej czy j-tej (odpowiednio Cij = 1, Cij = 0) • Do budowy klasyfikatorów są wykorzystywane powyższe relacje które pozwalają stwierdzić do której klasy bardziej obiekt klasyfikowany należy • Do każdego klasyfikatora określa sie współczynnik wiarygodności w fazie uczenia • Decyzja klasyfikacyjna:

  27. Drzewa decyzyjne – C4.5 Oczekiwana ilość informacji potrzebna do klasyfikacji: Maksymalizujemy przyrost informacji G(U,T) w wyniku podziału testem T: Żeby uniknąć zbyt wielkiej ilości podziałów wprowadzamy współczynnik: Gdzie P(U,T) – wartość informacyjna testu:

  28. Drzewa decyzyjne – C4.5 modyfikacja Uo – zbiór tych obiektów w których występuje brak na atrybucie potrzebnym do testu T Przyrost informacji Wartość informacyjna testu

  29. Drzewa decyzyjne – podejście probabilistyczne T: n1 t1 -liść r1 n2 -węzły t2 r2 -testy n3 t3 -wyniki testów Dla przykładu x (bez braków danych) prawdopodobieństwo osiągnięcia liścia I wynosi: nm tm rm I Gdy wyniki testów są znane (x nie zawiera braków potrzebnych przy testach) to prawdopodobieństwo osiągnięcia liścia wynosi 0 lub 1

  30. Drzewa decyzyjne – podejście probabilistyczne Jeżeli test tk w węźle nk nie może być ustalony dokładnie (występuje brak danych) to możemy przyjąć prawdopodobieństwo z rozkładu Ω określone następująco: Gdzie podzbiór przykładów dla których wartość testu jest znana

  31. Metoda podziału Polega na podzieleniu danych na mniejsze porcje tak by nie zawierały one braków i niosły maksymalną ilość informacji o klasyfikacji. Następnie dla każdej porcji jest stosowany odrębny model klasyfikacji, i następuje synteza wyników

  32. Literatura • Imieliński T., Lipiński W., Incomplete Information in Relational Databases, Journal of the AEM, tom 31, 1984 • Chan K. C. C., Wai-Ho A., Mining Fuzzy Association Rules, Proceedings of the Sixth International Conference on Information and Knowledge Managment, Las Vegas, 1997 • Regel A., Cremilleux B., Treatment of Missing Values for Association Rules, Proceedings of Research and Development in Knowledge Discovery and Data Mining, Second Pacific-Asia Conference, PAKDD-98, Melbourne, 1998 • Protaziuk G., Odkrywanie wiedzy w niekopletnych zbiorach danych, rozprawa doktorska, Warszawa 2005 • Kryszewicz M., Rybiński H., Incomplete database issues for representative association rules, Proceedings of Foundations of Inteligent Systems, 11th International Symposium, Warszawa 1999 • Nayak J. R., Cook D. J., Approximate Association Rule Mining, Proceedings of the Fourteenth International Articital Inteligence Research Society Conference, Key West, Floryda, 2001 • Feelders A., Handling missing data in trees: surrogate splits of statistical ipmutation?, Proceedings of Principles of Data Mining and Knowledge Discovery Third European Confereance, PKDD ’99, Praga, 1999

  33. Dziękuję za uwagę

More Related