1 / 23

Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie

Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie. Mieczysław Kłopotek, Arkadiusz Dzierżanowski, Marcin Brzóska, Mariusz Kujawiak. Problemy związane z wyszukiwaniem informacji w WWW. Nadmiarowość i nieaktualność informacji. Rozproszona struktura WWW.

armani
Download Presentation

Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Procesy decyzyjne w aktywnym wyszukiwaniu informacji w Internecie Mieczysław Kłopotek, Arkadiusz Dzierżanowski, Marcin Brzóska, Mariusz Kujawiak

  2. Problemy związane z wyszukiwaniem informacji w WWW • Nadmiarowość i nieaktualność informacji. • Rozproszona struktura WWW. • Zbyt duża ilość dokumentów. • Różnorodność źródeł informacji. • Dynamiczny rozwój sieci Internet.

  3. Wyszukiwarki - oparte na analizie treści strony - oparte na analizie topologii sieci - oparte na zasadzie aukcji miejsc - oparte na katalogach

  4. Meta i multiwyszukiwarki • Serwisy typu "lista„ • strony WWW na których zgromadzone zostały odnośniki do wybranych, standardowych wyszukiwarek • Serwisy poszukujący pojedynczo • uzyskane w ten sposób odnośniki są odpowiednio porządkowane i wyświetlane zazwyczaj przy zachowaniu podziału na poszczególne wyszukiwarki. • Serwisy poszukujące równolegle • łączą się jednocześnie z wieloma serwisami i na bieżąco pobierają z nich dane.

  5. Osobiste narzędzia wyszukiwawcze Narzędzia takie odwiedzając strony zaproponowane przez użytkownika wyszukują przydatne dla niego informacje Narzędzie takie zainstalowane w komputerze, korzysta z wielu indekserów jednocześnie, a następnie przetwarza uzyskane wyniki, usuwa duplikaty i wyświetla jednolitą listę zgodnie z przyjętymi przez użytkownika zasadami.

  6. Wspomaganie decyzji (nawigacyjnych) w osobistych narzędziach wyszukiwawczych • Oparte na powiązaniach pomiędzy dokumentami • PageRank • PHITS • Oparte na zawartości dokumentów • PLSA • TFIDF • Hybrydowe • PLSA&PHITS

  7. PageRank • Popularny dzięki wyszukiwarce internetowej Google.com. • Google traktuje odsyłacz ze strony A do strony B jako głos udzielony stronie B przez stronę A.

  8. PHITS Algorytm korzysta z macierzy A, która zawiera dane dotyczące cytowania jednego dokumentu przez inny tzn. Aij jest niezerowe jeśli dokument di jest cytowany przez dokument dj, lub równoważnie jeśli dj zawiera odsyłacz do dokumentu di. Wyróżniamy dwa rodzaje dokumentów: • authoritatives • hubs PHITS modeluje linki wchodzące do dokumentu, czyli cytowania zewnętrzne dokumentu.

  9. PLSA Macierz termów i dokumentów N zliczająca słowa, tj. Nij oznacza, jak często term (pojedyncze słowo lub fraza) ti występuje w dokumencie d. Dokument dj. jest reprezentowany jako wypukła kombinacja czynników o wagach mieszaniny P(zk|dj), tzn. prawdopodobieństwa predykcji termu w poszczególnych dokumentach są ograniczone do formy funkcyjnej P(ti | dj) = Σk P(ti|zk)P(zk|dj),

  10. TFIDF Waga dokumentów oparta na statystycznej wadze termów – TFIDF (term frequency – inverse document frequency). Wyrażona jest ona następującym wzorem: tfidfij = tfij / idfj = tfij / log2(N/dfj) • tfij – to liczba wystąpień termu j w dokumencie i, • dfj – liczba dokumentów zawierających term j, • N – ogólna liczba dokumentów. Z punktu widzenia tego algorytmu dużego znaczenia nabierze term często występujący w jednym z dokumentów, a rzadko w innych.

  11. TFIDF Mając dany zbiór termów Z={w1,w2,w3}, po wyliczeniu wag dla poszczególnych wyrazów, obliczamy całkowitą wagę dokumentu z następującego wzoru: Si – waga dokumentu i, Di – całkowita liczba termów w dokumencie i, N – całkowita liczba termów, Wj – waga termu j, Dij – liczba wystąpień termu j w dokumencie i

  12. PLSA&PHITS Ponieważ zarówno PLSA i PHITS jest oparte na podobnym rozkładzie, można zdefiniować prostszy wspólny model dla prawdopodobieństwa hiperłaczy i termów w dokumentach: • Zaletą takiego połączenia jest możliwość wykorzystanie zawartego tekstu i powiązania dokumentów. • Zastosowanie tego modelu umożliwia precyzyjne określanie dokumentów najbardziej do siebie podobnych poprzez zawartość merytoryczną tego dokumentu jak również powiązanie z innymi dokumentami przez zawarte w treści hiperłącza.

  13. Przykłady wykorzystania algorytmu TFIDF Witryna http://onet.pl - ilość stron 322 słowa kluczowe „piłka nożna”

  14. Przykłady wykorzystania algorytmów (1) Wprowadzenie pomocniczej miary „quasi” statystycznej dla algorytmu opartego na powiązaniach pomiędzy stronami, pozwala na wzięcie pod uwagę także zawartości merytorycznej dokumantu.

  15. Rozkład procentowy jakości stron Witryna http://allegro.pl - ilość stron 150 słowo kluczowe „komputer” Przed filtrowaniem stron WWW Po filtrowaniu stron WWW

  16. Przykłady wykorzystania algorytmów (2) Witryna http://www.ii.ap.siedlce.pl - ilość stron 54 słowa kluczowe „studia”

  17. Przykłady wykorzystania algorytmów (1) Witryna http://allegro.pl - ilość stron 134 słowo kluczowe „komputer”

  18. Wyszukiwarka 1 Wyszukiwarka 2 Wyszukiwarka m … Serwer MetaSzukacza Klient 1 Klient 2 … Klient n Struktura działąnia metawyszukiwarki MetaSzukacz

  19. Metawyszukiwarka MetaSzukacz Akcja na przycisku „Szukaj” rozsyła zapytanie do wybranych wyszukiwarek Pole do wprowadzenia zapytania do wyszukiwarek Wybór wyszukiwarek z których będą pobierane opisy dokumentów

  20. Prezentacja wyników w MetaSzukaczu Mapa rozmieszczenia dokumentów z pomocą algorytmu WEBSOM Informacje o wybranym dokumencie w mapie Wybór algorytmu decyzyjnego który wskazuje następny podobny dokument Zawartość merytoryczna wybranego dokumentu Legenda mapy określająca ważność dokumentu

  21. Szybkość przekazywania wyników

  22. Zależność przetwarzania danych przez poszczególne algorytmy

  23. Subiektywna ocena algorytmów nawigacji dla zapytania „metawyszukiwarki”

More Related