Projekt KBN 4 T11C 026 25
Download
1 / 28

Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: - PowerPoint PPT Presentation


  • 127 Views
  • Uploaded on

projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005. Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych. Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon ,

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: ' - eydie


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

projekt KBN 4 T11C 026 25

(okres realizacji XI.2003- XI.2005

Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych

Kierownik: dr hab. inż.Mieczyslaw A. Klopotek

Wykonawcy:

prof. dr hab. inż. Slawomir T. Wierzchon ,

mgr inż. Krzysztof Ciesielski

mgr inż. Michal Draminski,

Instytut Podstaw Informatyki PAN, Warszawa

mgr Mariusz Kujawiak

Instytut Informatyki Akademii Podlaskiej , Siedlce

dr inż. Marcin Sydow

Polsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa

Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using Bayesian networks and artificial immune systems"


Agenda
Agenda

  • Cel projektu

  • Pojęcie mapy dokumentu

  • Proces tworzenia mapy

  • Architektura systemu

  • Problematyka klasteryzacji w mapach dokumentów

  • Wyniki niektórych eksperymentów

  • Co przed nami ....


Cel projektu
Cel projektu

  • Celem projektu jest stworzenie narzędzi do wspomagania zadania eksploracji pełnotekstowych baz dokumentów poprzezstworzenie nawigacyjnej mapy dokumentów, na której bliskość geometryczna na mapie odzwierciedlałaby bliskość koncepcyjną dokumentów, a trzeci wymiar byłby wykorzystywany do odzwierciedlenia gęstości dokumentów


Koncepcja mapy dokument w
Koncepcja mapy dokumentów

  • Wizualizacja zbioru dokumentów na płaszczyźnie

  • Wiele podejść (inxight, internet cartographer, WEbSOM i warianty)

  • Idea WebSOM

    • bliskość na mapie = bliskość w przestrzeni dokumentów

    • Obszary mapy etykietowane informatywnie

    • Trzeci wymiar – odmienność w stosunku do otoczenia

  • Nasze podejście bazuje na idei WebSOM

    • Trzeci wymiar – gęstość dokumentów


Interfejs systemu BEATCA dostęp z http://www.ipipan.waw.pl/~klopotek /mak/current_research/KBN2003/KBN2003Translation.htm

Zapytanie

Wyntrana mapa

Lista map

Dokumenty z „komórek”




Proces tworzenia mapy bez etykietowania
Proces tworzenia mapy(bez etykietowania)

Zbiór dokumentów

Mapa doklumentów

Grupy w przestrzeni dokumentów

Punkty w przestrzeni dokumentów


Websom model przestrzeni dokument w
WebSOM – model przestrzeni dokumentów

My dog likes this food

dog

  • W tzw. Modelu wektorowym dokument jest punktem w przestrzeni rozpiętej przez termy – o współrzędnych odpowiadających częstosci tych termów

food

When walking, I take some food

walk


Przestrze dokument w a zapytania w wyszukiwarce
Przestrzeń dokumentów a zapytania w wyszukiwarce

dog

  • Relewantność dokumentu do kwerendy mierzy się kosinusem kąta między kwerendą a dokumentem

food

Query: walk

walk


Websom specyficzna klasteryzacja dokument w
WebSOM – specyficzna klasteryzacja dokumentów

Każda komórka mapy ma swój wektore ferencyjny

r

x

m

Mocna zmiana położenia (gruba strzałka)

Document space

2D map

Important difference to general clustering: not only clusters with similar documents, but also neighboring clusters similar


Wady websom
Wady WebSOM

  • Wysoka złożoność obliczeniowa

  • Niestabilność (mapy różnią się dla tych samych dokumentów)


Nasza modyfikacja
Nasza modyfikacja

  • Reprezentacja w postaci kompaktowych wektorów referencyjnych

  • Inicjalizacja ogólnymi tematami

  • Łączona metoda szukania zwycięzcy

  • Mapy wielopozuiomowe

  • Wielofazowa klasteryzacja

    • Początkowa klasteryzacja – identyfikacja głównych tematów

    • Wstępne grupowanie dokumentów

    • WEBSOM dla grup dokumentów

    • Rozmyte grupowanie komórek WebSOM i etykietowanie


Reprezentacja w postaci kompaktowych wektor w referencyjnych
Reprezentacja w postaci kompaktowych wektorów referencyjnych

  • Wektory referencyjne komórek mapy są rzadkie

  • Podczas uczenia stają się jeszcze rzadsze

  • Reprezenntowane przez zrównoważone drzewa „red-black tree”

  • Zadano próg tolerancji

  • Termy (wymiary) poniżej progu są usuwane

  • Zdecydowanie zmniejszono złozoność bez pogorszenia jakości


Inicjalizacja tematyczna wektor w referencyjnych
Inicjalizacja tematyczna wektorów referencyjnych referencyjnych

  • Zamiast WebSOMowej losowej

  • Identyfikacja K głównych tematów (i ich opisów)

    • Użycie LSI, lub

    • Naiwnej sieci bayesowskiej lub

    • PLSA – niestety nie rekomendujemy

  • Wybór K punktów na mapie jako tyzw. „punktów fiksowych poszczególnych tematów

  • Inicjalizacja punktów fiksowych tematami głównymi

  • Pozostałe komórki inicjalizujemy wektorami „pośrednimi”


Klasteryzacja wst pna dokument w
Klasteryzacja wstępna dokumentów referencyjnych

  • Metoda

    • gazu neuronowego lub

    • gazu neuronowego z funkcją użyteczności lub

    • sieci immunologicznej (przyszłe badania)

    • sieci bayesowskiej (przyszłe badania)


Czone poszukiwanie zwyci zcy na mapie typu websom
Łączone poszukiwanie zwycięzcy na mapie typu WebSOM referencyjnych

  • Globalne poszukiwanie – dokładne, lecz wolne

  • Lokalne przeszukiwanie – szybsze, lecz może być niedokładne dla szybkich zmian rozkładu

  • Start – jedna faza poszukiwań globalnych

  • Ruchy dokumentów coraz płynniejsze – lokalne poszukiwanie wystarcza

  • Nawrót globalnego przeszukiwania w wypadku nagłych przemieszczeń (outliery, zmnmiejszenie promienia otoczenia)


Mapy hierarchiczne
Mapy hierarchiczne referencyjnych

  • Bottom-up approach

  • Feasible (with joint winner search method)

  • Start with most detailed map

  • Compute weighted centroids of map areas

  • Use them as seeds for coarser map

  • Top-down approach is possible but requires fixpoints


Klasteryzacja grup dokument w kom rek do obszar w
Klasteryzacja grup dokumentów (komórek do obszarów) referencyjnych

  • Tradycyjne metody zawodne:

    • Skrajnie rozmyta struktura tematyczna SOM

    • Podobieństwo w oryginalnej przestrzeni i na mapie koniecznie zachowane

    • Problemy outrlierów

    • Brak estymacji liczby grup apriori

  • Zastosowano Fuzzy C-MEANS na kracie komórek

  • Połączenie rozmytego grupowania z podejściem grafowym (MST gęstości i odległości)

  • Sjklastrowane dokumenty etykietowane ważonymi centroidami wektorów referencyjnych komórek skalowanymi entropią międzygrupową


Architektura systemu
Architektura systemu referencyjnych


Eksperymenty ze zbie no ci map
Eksperymenty ze zbieżnością map referencyjnych

  • Badano zbieżność do stabilnego stanu mapy w zależności od

    • Typu funkcji alpha (tempo redukcji promienia poszukiwań)

    • Typu metody szukankia zwycięzcy




Eksperymenty z czasem wykonania
Eksperymenty z czasem wykonania lokalne)

  • Czynniki badane

    • Rozmiar mapy (całkowita liczba komórek)

    • Metoda optymalizacji słownika

      • dictionary optimization

      • reference vector representation




Dalsze badania
Dalsze badania lokalne)

  • Implementacja kolejnych metod klasteryzacji

  • Implementacja koncepcji przyrostowego konstruowania map

  • Budowa efektywnego pająka

  • Badania porównawcze szybkości i jakości generowanych na różnych ścieżkach


Dziękuję. lokalne)

Czy są pytania?


ad