slide1
Download
Skip this Video
Download Presentation
Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:

Loading in 2 Seconds...

play fullscreen
1 / 28

Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: - PowerPoint PPT Presentation


  • 128 Views
  • Uploaded on

projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005. Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych. Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon ,

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:' - eydie


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1
projekt KBN 4 T11C 026 25

(okres realizacji XI.2003- XI.2005

Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych

Kierownik: dr hab. inż.Mieczyslaw A. Klopotek

Wykonawcy:

prof. dr hab. inż. Slawomir T. Wierzchon ,

mgr inż. Krzysztof Ciesielski

mgr inż. Michal Draminski,

Instytut Podstaw Informatyki PAN, Warszawa

mgr Mariusz Kujawiak

Instytut Informatyki Akademii Podlaskiej , Siedlce

dr inż. Marcin Sydow

Polsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa

Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using Bayesian networks and artificial immune systems"

agenda
Agenda
  • Cel projektu
  • Pojęcie mapy dokumentu
  • Proces tworzenia mapy
  • Architektura systemu
  • Problematyka klasteryzacji w mapach dokumentów
  • Wyniki niektórych eksperymentów
  • Co przed nami ....
cel projektu
Cel projektu
  • Celem projektu jest stworzenie narzędzi do wspomagania zadania eksploracji pełnotekstowych baz dokumentów poprzezstworzenie nawigacyjnej mapy dokumentów, na której bliskość geometryczna na mapie odzwierciedlałaby bliskość koncepcyjną dokumentów, a trzeci wymiar byłby wykorzystywany do odzwierciedlenia gęstości dokumentów
koncepcja mapy dokument w
Koncepcja mapy dokumentów
  • Wizualizacja zbioru dokumentów na płaszczyźnie
  • Wiele podejść (inxight, internet cartographer, WEbSOM i warianty)
  • Idea WebSOM
    • bliskość na mapie = bliskość w przestrzeni dokumentów
    • Obszary mapy etykietowane informatywnie
    • Trzeci wymiar – odmienność w stosunku do otoczenia
  • Nasze podejście bazuje na idei WebSOM
    • Trzeci wymiar – gęstość dokumentów
slide5
Interfejs systemu BEATCA dostęp z http://www.ipipan.waw.pl/~klopotek /mak/current_research/KBN2003/KBN2003Translation.htm

Zapytanie

Wyntrana mapa

Lista map

Dokumenty z „komórek”

proces tworzenia mapy bez etykietowania
Proces tworzenia mapy(bez etykietowania)

Zbiór dokumentów

Mapa doklumentów

Grupy w przestrzeni dokumentów

Punkty w przestrzeni dokumentów

websom model przestrzeni dokument w
WebSOM – model przestrzeni dokumentów

My dog likes this food

dog

  • W tzw. Modelu wektorowym dokument jest punktem w przestrzeni rozpiętej przez termy – o współrzędnych odpowiadających częstosci tych termów

food

When walking, I take some food

walk

przestrze dokument w a zapytania w wyszukiwarce
Przestrzeń dokumentów a zapytania w wyszukiwarce

dog

  • Relewantność dokumentu do kwerendy mierzy się kosinusem kąta między kwerendą a dokumentem

food

Query: walk

walk

websom specyficzna klasteryzacja dokument w
WebSOM – specyficzna klasteryzacja dokumentów

Każda komórka mapy ma swój wektore ferencyjny

r

x

m

Mocna zmiana położenia (gruba strzałka)

Document space

2D map

Important difference to general clustering: not only clusters with similar documents, but also neighboring clusters similar

wady websom
Wady WebSOM
  • Wysoka złożoność obliczeniowa
  • Niestabilność (mapy różnią się dla tych samych dokumentów)
nasza modyfikacja
Nasza modyfikacja
  • Reprezentacja w postaci kompaktowych wektorów referencyjnych
  • Inicjalizacja ogólnymi tematami
  • Łączona metoda szukania zwycięzcy
  • Mapy wielopozuiomowe
  • Wielofazowa klasteryzacja
    • Początkowa klasteryzacja – identyfikacja głównych tematów
    • Wstępne grupowanie dokumentów
    • WEBSOM dla grup dokumentów
    • Rozmyte grupowanie komórek WebSOM i etykietowanie
reprezentacja w postaci kompaktowych wektor w referencyjnych
Reprezentacja w postaci kompaktowych wektorów referencyjnych
  • Wektory referencyjne komórek mapy są rzadkie
  • Podczas uczenia stają się jeszcze rzadsze
  • Reprezenntowane przez zrównoważone drzewa „red-black tree”
  • Zadano próg tolerancji
  • Termy (wymiary) poniżej progu są usuwane
  • Zdecydowanie zmniejszono złozoność bez pogorszenia jakości
inicjalizacja tematyczna wektor w referencyjnych
Inicjalizacja tematyczna wektorów referencyjnych
  • Zamiast WebSOMowej losowej
  • Identyfikacja K głównych tematów (i ich opisów)
    • Użycie LSI, lub
    • Naiwnej sieci bayesowskiej lub
    • PLSA – niestety nie rekomendujemy
  • Wybór K punktów na mapie jako tyzw. „punktów fiksowych poszczególnych tematów
  • Inicjalizacja punktów fiksowych tematami głównymi
  • Pozostałe komórki inicjalizujemy wektorami „pośrednimi”
klasteryzacja wst pna dokument w
Klasteryzacja wstępna dokumentów
  • Metoda
    • gazu neuronowego lub
    • gazu neuronowego z funkcją użyteczności lub
    • sieci immunologicznej (przyszłe badania)
    • sieci bayesowskiej (przyszłe badania)
czone poszukiwanie zwyci zcy na mapie typu websom
Łączone poszukiwanie zwycięzcy na mapie typu WebSOM
  • Globalne poszukiwanie – dokładne, lecz wolne
  • Lokalne przeszukiwanie – szybsze, lecz może być niedokładne dla szybkich zmian rozkładu
  • Start – jedna faza poszukiwań globalnych
  • Ruchy dokumentów coraz płynniejsze – lokalne poszukiwanie wystarcza
  • Nawrót globalnego przeszukiwania w wypadku nagłych przemieszczeń (outliery, zmnmiejszenie promienia otoczenia)
mapy hierarchiczne
Mapy hierarchiczne
  • Bottom-up approach
  • Feasible (with joint winner search method)
  • Start with most detailed map
  • Compute weighted centroids of map areas
  • Use them as seeds for coarser map
  • Top-down approach is possible but requires fixpoints
klasteryzacja grup dokument w kom rek do obszar w
Klasteryzacja grup dokumentów (komórek do obszarów)
  • Tradycyjne metody zawodne:
    • Skrajnie rozmyta struktura tematyczna SOM
    • Podobieństwo w oryginalnej przestrzeni i na mapie koniecznie zachowane
    • Problemy outrlierów
    • Brak estymacji liczby grup apriori
  • Zastosowano Fuzzy C-MEANS na kracie komórek
  • Połączenie rozmytego grupowania z podejściem grafowym (MST gęstości i odległości)
  • Sjklastrowane dokumenty etykietowane ważonymi centroidami wektorów referencyjnych komórek skalowanymi entropią międzygrupową
eksperymenty ze zbie no ci map
Eksperymenty ze zbieżnością map
  • Badano zbieżność do stabilnego stanu mapy w zależności od
    • Typu funkcji alpha (tempo redukcji promienia poszukiwań)
    • Typu metody szukankia zwycięzcy
eksperymenty z czasem wykonania
Eksperymenty z czasem wykonania
  • Czynniki badane
    • Rozmiar mapy (całkowita liczba komórek)
    • Metoda optymalizacji słownika
      • dictionary optimization
      • reference vector representation
dalsze badania
Dalsze badania
  • Implementacja kolejnych metod klasteryzacji
  • Implementacja koncepcji przyrostowego konstruowania map
  • Budowa efektywnego pająka
  • Badania porównawcze szybkości i jakości generowanych na różnych ścieżkach
slide28
Dziękuję.

Czy są pytania?

ad