1 / 23

Eksploracja danych

Eksploracja danych. “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”. Odkrywanie wiedzy w bazach danych a Data Mining.

cree
Download Presentation

Eksploracja danych

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”

  2. Odkrywanie wiedzy w bazach danych a Data Mining • Data Mining (DM) czyli „przekopywanie danych” zajmuje się odkrywaniem ukrytej wiedzy, nieznanych wzorców i nowych reguł w dużych bazach danych. • Knowledge discovery in databases (KDD) - większy proces, którego częścią jest DM. • KDD - praktyczne podejście wykorzystania informacji jako czynnika produkcji

  3. Nowe wyzwania • Ekspotencjalny wzrost ilości danych • Stara prawda: im więcej danych tym mniej informacji • Poszukiwanie igły w stogu siana

  4. Zastosowania - przykłady • Segmentacja klientów (np. dla celów reklamy) • Wykrywanie serii czasowych • Wykrywanie oszustw (odszkodowania, kredyty, itp.) • Redukcja kosztów firmy (przewidywanie ścieżek rozwoju pracowników na podstawie danych historycznych)

  5. Przykład segmentacji

  6. Dlaczego nie zwykły SQL ? • 80% informacji - SQL • 20% informacji - ukryta wiedza wymagająca zaawansowanych technik • Kluczem do KDD jest zrozumienie, że istnieje więcej informacji niż widać na pierwszy rzut oka.

  7. Cztery typy wiedzy

  8. Cztery typy wiedzy • Powierzchowna - wystarczy SQL • Wielowymiarowa - OLAP (szybciej) lub SQL (dużo dłużej) • Ukryta - KDD (potrzebuje godzin) lub SQL (potrzeba miesięcy pracy) • Głęboka - wymaga klucza (wiedzy) według którego wyszukujemy informacje

  9. 1. Lista wymagań 2. Przegląd sprzętu i oprogramowania 3. Przegląd jakości dostępnych danych 4. Lista dostępnych baz danych 5. Jeśli istnieje hurtownia danych: jakie dane są dostępne? 6. Jakiej wiedzy oczekuje organizacja teraz i w przyszłości? 7. Identyfikacja grup decydentów w organizacji 8. Analiza przydatności wyszukiwanych informacji 9. Lista potrzebnych zmian w bazach danych Kroki przygotowania środowiska KDD

  10. Kroki tworzenia środowiska KDD

  11. Czyszczenie bazy danych • „Zanieczyszczenie danych” pojawia się w bazie na wielu etapach. Najwięcej przy wprowadzaniu danych. • Czyszczenie • usuwanie błędnych/ niepełnych rekordów • reorganizacja wprowadzania danych

  12. Wzbogacanie danych • Współpraca między firmami(uwaga na ochronę danych osobowych!), dane zagregowane o grupach klientów (nie zawierające danych osobowych) • Dane demograficzne

  13. Data Mining • Nie istnieje jedyny i najlepszy algorytm uczenia maszynowego lub rozpoznawania wzorców • DM wymaga: • skutecznej metody próbkowania • przechowywania wyników pośrednich • indeksów geometrycznych (do przeszukiwania sąsiedztwa punktu) lub indeksów bitmapowych

  14. 10 złotych reguł tworzenia KDD (1/2) 1) Wsparcie dla bardzo dużych wolumenów danych 2) Wsparcie dla hybrydowych algorytmów uczących 3) Hurtownia danych 4) Wdrożenie algorytmów czyszczenia danych 5) Umożliwienie dynamicznego kodowania (eksperymentów z modelem)

  15. 10 złotych reguł tworzenia KDD (2/2) 6) Integracja z system wspomagania decyzji 7) Elastyczna architektura 8) Wsparcie dla baz heterogenicznych i innych źródeł danych (pliki, bazy obiektowe itp.) 9) Wdrożenie architektury klient/serwer 10) Optymalizacja dostępu do b.d. na niskim poziomie

  16. Drzewa decyzyjne • węzły reprezentują testy przeprowadzane na atrybutach • liście reprezentują etykiety kategorii przypisywane przykładom • zaletami drzew decyzyjnych są m.in.: • możliwość reprezentacji dowolnych hipotez dla danego zbioru atrybutów • efektywność pamięciowa i czasowa klasyfikacji • czytelność reprezentacji

  17. Przykład

  18. Przykład prostego drzewa decyzyjnego dla stanów pogody do podjęcia decyzji o rozpoczęciu gry w golfa (1) lub tenisa ziemnego (0).

  19. Brakujące wartości w danych podczas uczenia się • Pomijanie - usuwanie ze zbioru P przykładów, dla których badany atrybut jest nieznany • Wypełnianie - brakujące wartości atrybutu a są wypełniane według jednej z zasad: • najczęściej występująca wartość tego atrybutu w zbiorze P • najczęściej występująca wartość tego atrybutu w zbiorze przykładów tej samej kategorii • wartość ustalona na podstawie znanych wartości innych atrybutów

  20. Brakujące wartości w danych podczas uczenia się • Podział - zastąpienie przykładów z nieznaną wartością przykładami ułamkowymi dla różnych występujących w zbiorze P wartości. • Losowanie - przykład z nieznaną wartością jest przydzielany losowo z prawdopodobieństwem proporcjonalnym do częstości występowania odpowiednich wartości w P • Oddzielna gałąź - dla węzła gdzie testowany jest argument z nieznaną wartością tworzona jest dodatkowa gałąź zawierająca przypadki z odpowiadające nieznanemu wynikowi testu

  21. Brakujące wartości w danych podczas klasyfikowania • Oddzielna gałąź - jeśli przy tworzeniu drzewa została utworzona • Wypełnienie - według jednej z wcześniej podanych zasad • Klasyfikacja probabilistyczna - uwzględnia się wszystkie możliwe wyniki testów; wybiera się kategorię najbardziej prawdopodobną

  22. Zalety drzew decyzyjnych • możliwość reprezentacji dowolnych hipotez dla danego zbioru atrybutów • efektywność pamięciowa i czasowa klasyfikacji • łatwe do zrozumienia dla ludzi • łatwe do wizualizacji • szybkie w budowie i użyciu

  23. Wady drzew decyzyjnych • Testuje się jeden atrybut na raz, co powoduje niepotrzebny rozrost drzewa dla danych, gdzie poszczególne atrybuty zależą od siebie. • Niższe węzły drzewa mają b. mało danych,co może prowadzić do przypadkowych podziałów.

More Related