1 / 36

Adaptacyjność a skalowalność map dokumentów

Zakopane, 6-8.12.2005. Adaptacyjność a skalowalność map dokumentów. M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński, D.Czerski Instytut Podstaw Informatyki Polskiej Akademii Nauk. Agenda. Motywacja Charakterystyka nowej wyszukiwarki Architektura Interfejs użytkownika

dana
Download Presentation

Adaptacyjność a skalowalność map dokumentów

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zakopane, 6-8.12.2005. Adaptacyjność a skalowalność map dokumentów M.A. Kłopotek, S.T.Wierzchoń, K.Ciesielski, M.Dramiński, D.Czerski Instytut Podstaw Informatyki Polskiej Akademii Nauk

  2. Agenda • Motywacja • Charakterystyka nowej wyszukiwarki • Architektura • Interfejs użytkownika • Pomiary jakości • Eksperymenty • Wyniki • Wnioski

  3. Motywacja Celem projektu było stworzenie narzędzia do wspomagania eksploracji baz dokumentów tekstowych poprzez generowanie nawigowalnych map, na których odległość geometryczna odzwierciedla odległość konceptualną dokumentów, zaś trzeci wymiar odzwierciedla rozkład gęstości dokumentów. Specyfika analizowanych danych: • Bardzo duża liczba obserwacji oraz wymiar przestrzeni. • Dokumenty są połączone linkami (związki semantyczne). • Zmienność danych w czasie (modyfikowane, usuwane, dodawane) • Trudności ze zdefiniowaniem obiektywnej miary jakości wyników. • Szum w dancyh (np. grupy dyskusyjne)

  4. BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym • osobiste narzędzie do wspomagania zadania eksploracji pełnotekstowych baz dokumentów • nawigacyjne mapy dokumentów, na których bliskość geometryczna odzwierciedla bliskość koncepcyjną • Do zadań miękkiej klasyfikacji dokumentów oraz do stworzenia grafu bliskości pojęć, będącego podstawą kreowania nieostrych miar bliskości dokumentów zastosowano sieci bayesowskie. • Do poszukiwania optymalnej mapy dokumentów i ich grupowania stosowane są metody: • samoorganizxujących się map Kohonnena • sztucznych systemów immunologicznych • wzrastającego gazu neuronowego

  5. Zbiór dokumentów Mapa dokumentów Grupy w przestrzeni dokumentów Punkty w przestrzeni dokumentów Etapy tworzenia mapy

  6. BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym • Nowa koncwepcja wyszukiwarki mapowej • Pełen cykl przetwarzania miliona dokumentów - 48 godz. • współistnienie wielu koncepcji map (SOM, GNG, Immunologiczne) • współistnienie wielu koncepcji reprezentacji map (czwotokątne, sześciokątne, dwuwymiarowe euklidesowskie, hiperboliczne "rybie oko", prezentacja na kuli, torusie, walcu) • Możliwość przyrostowego generowania mapy • Środowisko do badań eksperymentalnych nad nowymi koncepcjami map

  7. BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym • Nowe koncepcje pająka (quasi-inteligencja) • Wyszukiwanie tematyczne w oparciu o sieci Bayesowskie • Nowe koncepcje indeksera • Nowa metoda tzw. blokowych list inwersyjnych • Nowe metody redukcji słownika • Nowa metoda identyfikacji fraz • Nowe koncepcje analizatora - konstruktora map • lokalno-globalne metody wyszukiwania zwycięzcy dla SOM oraz dla GNG • Nowe metody tematycznej inicjalizacji mapy (SVD, PLSA w wersji z naiwną siecią Bayesowską, siecią ETC, metodą HAL) • Nowe metody grupowania obszarów mapy (w oparciu m.in. o Fuzzy-c-means)

  8. BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym • Nowe koncepcje informatora • Mapowo-sieciowa reprezentacja GNG • automatyczny dobór najlepszej mapy spośród szeregu wcześniej przygotowanych • mapy wielowarstwowe (mapy kontekstowe) • Kompaktowe obszary tematyczne identyfikowane

  9. BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym • Poza tym: • Wyniki wyszukiwania prezentowane na mapie dokumentów • Streszczenia związane z zapytaniem generowane on-line • Automatyczna generacja tezaurusa przy użyciu GNG • Uzupełnianie kwerend przy użyciu sieci bayesowskich (sieci ETC lub Chow.Liu) lub modelu HAL (z normalizowanymi lub nienormalizowanymi wektorami) • Pająk sieciowy i dyskowy • Możliwość ograniczenia domen dla pająka, głębokości podkatalogów jak i liczby ściąganych dokumentów • Pająk wielowątkowy • Przetwarzanie dokumentów HTML, tekstowych i PDF • Rozpoznawanie języka dokumentu (polski, niemiecki, angielski)

  10. BEATCA – nowa koncepcja wyszukiwarki o interfejsie mapowym • Oraz • Inteligentne priorytetowanie kolejki pająka • Wybór strategii przeszukiwania sieci przez pająka, metoda przypisująca priorytety adresowm umieszczanym w kolejce. • 1 – Wykorzystanie miary kosinusowej do określenia wagi linków, • 2 – Wykorzystanie sieci bayesa do określenia wagi linków, • 3 – Wykorzystanie HALa do określenia wagi linków. • Określenie tematyki zbieranych dokumentów (termy z z wagami) • Listy inwersyjne ze statycznymi lub dynamicznymi blokami • Automatyczny dobór stemmera (polski, angielski, niemiecki) • Cztery metody optymalizacji słownika termów • Automatyczny dobór progów jakości termów przy optymalizacji słownika

  11. BEATCA architektura

  12. Interfejs użytkownika

  13. Tradycyjna płaska mapa sześciokątna

  14. Tradycyjna kwadratowa mapa płaska

  15. Trójwymiarowe wizualizacje mapy

  16. Środowisko eksperymentalne Możliwość pomiarów jakości generowanych map – wykorzystane miary obiektywnej jakości 4001 = AverageMap Cosine Quantization (cellErr): - pomiar ciągłości topologicznej mapy 4002 = Average Document Cosine Quantization (docErr) - pomiar jakości grup dokumentów na poziomie komórki

  17. Pomiary jakości Miary zgodności klasteryzacji z intencją (na bazie z góry zadanej klasyfikacji) 4003 = Cluster Purity: - „czystość” pojedynczej komórki 4004 = Cluster Entropy: - entropia pojedynczej komórki 4005 = Average Weighted Cluster Purity: - średnia czystość komórek mapy 4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów (stosunek faktycznej entropiii do entropii oczekiwanej przy niezależności klastrów i klas)

  18. Eksperymenty • Experiment #12: GNG with 64 gas cells • Experiment #13: SOM - 8*8 cell map • Experiment #22: GNG with 16 gas cells • Experiment #23: SOM - 4*4 cell map Porównanie SOM i GNG

  19. Eksperymenty Objaśnienia skrótów: • docGroup – metoda grupowania dokumntów • ETC – (Edge Tree construction algorithm), • init kernel – rozmiar sąsiedztwa do nauki SOM • IDComponent – faza uczenia • init – początkowa, • 0 – po 1 iteracji • 63 – po 63 iteracji • final – na końcu Porównanie SOM i GNG

  20. Porównanie SOM i GNGH Wyniki 4002 = Average Document Cosine Quantization (docErr)

  21. Porównanie SOM i GNG Wyniki 4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy

  22. Porównanie SOM i GNG Wyniki 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

  23. Porównanie parametrów i inicjalizacji SOM Eksperymenty Skróty NB – naïve Bayes, SVD – Singular Value Decomposition, ETC – Edge Tree construction algorithm • IDComponent – faza uczenia • init – początkowa, • 0 – po 1 iteracji • 63 – po 63 iteracji • final – na końcu

  24. Porównanie parametrów i inicjalizacji SOM Wyniki 4002 = Average Document Cosine Quantization (docErr)

  25. Porównanie parametrów i inicjalizacji SOM Wyniki 4006 = Average Weighted Cluster Entropy: - średnia entropia komórek mapy

  26. Porównanie parametrów i inicjalizacji SOM Wyniki 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

  27. Porównanie parametrów i inicjalizacji SOM Wyniki

  28. Porównanie parametrów i inicjalizacji SOM Wyniki

  29. Porównanie parametrów i inicjalizacji SOM Wyniki 4007 = Normalized Mutual Information (NMI): - relacja między entropią klas a entropią klastrów

  30. Adaptacyjność • Pająk • Możliwość szukania wg profili tematycznych • Dopasowanie do profilu dotychczas wyszukanych dokumentów • Indekser • Przyrostowa konstrukcja indeksu • Listy inwersyjne z dynamicznymi blokami • Maper • GNG – uczenie struktury powiązań z „zapominaniem” grup i powiązań nieaktywnych • Fleksybilnna inicjalizacja mapy, przewidująca uuczenieprzyrostowe

  31. Gładkość modelu - nieadaptacyjna i adaptacyjna konstrukcja

  32. Przemieszczanie dokumentu między komórkami - nieadaptacyjna i adaptacyjna konstrukcja

  33. Średni błąd kwantyzacji - nieadaptacyjna i adaptacyjna konstrukcja

  34. Jakość lokalnej metody w konstrukcji GNG - metoda klasyczna (globalna) a nowa (drzewiasta

  35. Czas obliczeń - metoda klasyczna (globalna) a nowa (drzewiasta

  36. Dziękuję

More Related