1 / 22

Wprowadzenie do budowy usług informacyjnych

Uniwersytet Łódzki Katedra Informatyki. W. Bartkiewicz. Wprowadzenie do budowy usług informacyjnych. Wykład 4. Model probabilistyczny wyszukiwania informacji. Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu

Download Presentation

Wprowadzenie do budowy usług informacyjnych

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uniwersytet Łódzki Katedra Informatyki W. Bartkiewicz Wprowadzenie do budowy usług informacyjnych Wykład 4. Model probabilistyczny wyszukiwania informacji Uwaga: W bieżącej prezentacji obszernie wykorzystano slajdy z wykładu „Information Retrieval and Web Search”, prowadzonego na Stanford University przez Christophera Manninga i Prabhakara Raghavana.

  2. Katedra Informatyki Założenia modelu probabilistycznego • Model wektorowy opierał się na algebrze liniowej. W przeciwieństwie do niego model probabilistyczny bazuje statystyce Bayesowskiej. • W praktyce, jak zobaczymy, oba te modele w znacznym stopniu się pokrywają. • Ogólna zasada tworzenia rankingu: • Mamy kolekcję dokumentów. • Użytkownik wykonuje zapytanie. • Zwracana jest lista dokumentów, uporządkowanych odpowiednio dla potrzeb informacyjnych użytkownika. • W modelu probabilistycznym dokumenty rankingowane są według prawdopodobieństwa relewantności dla potrzeb informacyjnych użytkownika: P(relewantny | dokument, zapytanie)

  3. Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa • Niezależność zdarzeń • Niech a, b będą dwoma zdarzeniami z prawdopodobieństwami P(a) i P(b). • Zdarzenia a i b są niezależne wtedy i tylko wtedy gdy: P(a  b) = P(a)P(b) • W ogólności a1, a2, ... , an są niezależne wtedy i tylko wtedy gdy: P(a1 a2 ...  an) = P(a1)P(a2)...P(an) • Warunkowe prawdopodobieństwo zdarzeń: • P(a | b) jest prawdopodobieństwemapod warunkiemb, nazywanym także prawdopodobieństwem warunkowyma przy danym b. P(a | b) = P(a  b) / P(b) • Niezależność warunkowa zdarzeń: • Zdarzenia a1, ..., ansą warunkowo niezależne wtedy i tylko wtedy gdy: P(ai | aj) = P(ai) dla wszystkich i oraz j.

  4. Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa • Zdarzenia niezależne – przykład: aib są wynikiem rzutu dwoma kostkami P(a=5 | b=3) = P(a=5) =1/6 • Zdarzenia zależne – przykład: aib są wynikiem rzutu dwoma kostkami t jest sumą dwu rzutów t = a + b P(t=8 | a=2) = 1/6 P(t=8 | a=1) = 0

  5. Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa Prawdopodobieństwo warunkowe a gdzieajestzdarzeniemnie a x a y w b z b P(a) = x + y P(b) = w + x P(a | b) = x / (w + x) = P(a  b) /P(b) P(a | b) P(b) = P(a  b) = P(b | a) P(a)

  6. Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa Twierdzenie Bayesa a priori a posteriori

  7. Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa Twierdzenie Bayesa Przykład aWaga ponad 80 kg. bWzrost ponad 180 cm. P(a | b) = x / (w+x) = x / P(b) P(b | a) = x / (x+y) = x / P(a) x=P(a  b) Ponad 80 kg x y w z Ponad 180 cm

  8. Katedra Informatyki Krótka powtórka z podstaw rachunku prawdopodobieństwa Szansa

  9. Katedra Informatyki Zasada rankingowania probabilistycznego • Podstawą teoretyczną wszystkich modeli probabilistycznych wyszukiwania informacji jest tzw. zasada rankingowania probabilistycznego (Probability Ranking Pronciple). • Zgodnie z nią optymalne działanie systemu wyszukiwawczego może zostać osiągnięte poprzez rankingowanie dokumentów zgodnie z prawdopodobieństwem ich oceny jako relewantnych dla zapytania. • Prawdopodobieństwa te powinny zostać oszacowane tak dokładnie, jak to jest możliwe na podstawie dostępnych do tego celu danych.

  10. Katedra Informatyki Zasada rankingowania probabilistycznego • Dla danego dokumentu d w kolekcji oznaczmy przez: • R – zdarzenie polegające na tym, że dokument jest relewantny • NR – zdarzenie polegające na tym, że jest on nierelewantny. • Dla danego zapytania q i dokumentu d w kolekcji szacujemy prawdopodobieństwo, że użytkownik uzna d za relewantny P(R|d), a następnie sortujemy dokumenty zgodnie z wyznaczonymi prawdopodobieństwami. • Zazwyczaj dokumenty ocenia się nie korzystając bezpośrednio z P(R|d), ale z szansy S(R|d) = P(R|d) / P(NR|d). • Ponieważ interesuje nas ranking (porównanie względne) dokumentów, na ogół nie korzystamy nawet z szansy, ale tzw. RSV (Retrieval Status Value) – miary proporcjonalnej do prawdopodobieństwa relewancji (RSV ~ P(R|d)). • Założenia (dyskusyjne): • Relewantność każdego z dokumentów jest niezależna od relewantności innych dokumentów (tzn. każdy dokument może być rozważany w izolacji od innych). • Boolowski model relewancji, tzn. dokument jest albo relewantny, albo nie.

  11. Katedra Informatyki Relewancja i twierdzenie Bayesa – podstawowe definicje • P(R|d), P(NR|d)– prawdopodobieństwo, że dokument d jest relewantny (nierelewantny). • P(R), P(NR) – prawdopodobieństwo a priori wyszukania relewantnego (nierelewantnego) dokumentu. • P(d|R), P(d|NR) – prawdopodobieństwo wystąpienia dokumentu d w zbiorze dokumentów relewantnych (nierelewantnych). • P(d) – prawdopodobieństwo wystąpienia dokumentu d w kolekcji.

  12. Katedra Informatyki Model BIR • Model BIR (Binary Independence Retrieval) jest najczęściej stosowanym (i najprostszym) modelem probabilistycznym. • Binary - dokumenty oraz zapytania reprezentowane są przez binarne wektory występowania termów – 1 jeśli dany term występuje w dokumencie (zapytaniu), 0 jeśli nie. • Independence – termy występujące w opisie dokumentu są niezależne. Najbardziej problematyczne założenie. W zasadzie nigdy nie jest spełnione. • BIR opiera się więc na naiwnym probabilistycznym modelu Bayesowskim.

  13. Katedra Informatyki Model BIR • Przyjmijmy, że dokumenty reprezentowane są przez binarne wektory występowania termów x = (x1, ..., xn), przy czym xi = 1, jeśli term i występuje w opisie dokumentu i, xi = 0, gdy nie. • Podobnie zapytania reprezentowane są przez binarne wektory q = (q1, ..., qn). • Dla danego zapytania q i dla każdego dokumentu wyznaczamy miarę RSV(q, x) ~ P(R | q, x), która posłuży nam następnie do sporządzenia rankingu dokumentów. • Do stworzenia miary RSV wykorzystamy szansę oraz twierdzenie Bayesa:

  14. Katedra Informatyki Model BIR • Korzystamy z założenia niezależności Stałe dla danego zapytania Wymaga oszacowania

  15. Katedra Informatyki Model BIR • Ponieważ xi jest równe albo 0 albo 1: • Oznaczmy przez: • Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri.

  16. Katedra Informatyki Model BIR • Załóżmy ponadto, że dla wszystkich termów nie występujących w zapytaniu (qi = 0) mamy: pi = ri. • Wówczas dla wszystkich termów nie występujących w zapytaniu (qi = 0) pi / ri = 1.

  17. Katedra Informatyki Wszystkie termy dopasowane Wszystkie termy dopasowane Nie dopasowanetermy zapytania Wszystkie termy zapytania Model BIR

  18. Katedra Informatyki Stałe dla zapytania Jedyny element, który musi być obliczony do rankingu • Retrieval Status Value: Model BIR

  19. Katedra Informatyki Model BIR • Pomimo, że formuła wyszukiwania probabilistycznego wygląda w sposób złożony, widzimy, że jest to w zasadzie wariant modelu wektorowego, wykorzystujący nieco inną formułę obliczania wag termów niż tf*idf. • Problemem podstawowym oczywiście jest oszacowanie współczynników ci, niezbędnych do wyznaczenia RSV dokumentu.

  20. Katedra Informatyki • Oszacowania: Model BIR • Załóżmy, że mamy pewien zbiór treningowy zapytań z informacją o relewancji dokumentów, które powinny zostać wyszukane w odpowiedzi na te zapytania. • W takiej sytuacji możemy wyznaczyć współczynniki ci, z następującej tabeli, sporządzanej dla każdego termu i (Robertson i Sparck Jones).

  21. Katedra Informatyki Model BIR • Niestety, w praktyce rzadko dysponujemy danymi dotyczącymi relewancji. • Wyjątkiem jest interaktywna metoda modyfikacji zapytania, z wykorzystaniem tzw. sprzężenia relewancji. O sprzężeniu relewancji mówić będziemy na jednym z kolejnych wykładów. • Współczynniki ci oszacowane muszą być wówczas wyłącznie na podstawie statystyk występowania termów w kolekcji dokumentów. • Zazwyczaj liczba dokumentów nierelewantnych w kolekcji jest dużo większa niż relewantnych. • Dla dużych wartości N, prawdopodobieństwo wystąpienia termu w dokumentach nierelewantnych może więc być szacowane przez n/N. (czyli przy założeniu, że wszystkie dokumenty są nierelewantne). • Wówczas mamy: log (1– ri)/ri = log (N– n)/n ≈ log N/n = IDF! • Musimy więc obliczyć wyłącznie prawdopodobieństwo wystąpienia termu w dokumentach relewantnych pi. • Klasyczna metoda polega na użyciu iteracyjnej formuły, wyznaczającej wartość pi rekurencyjnie.

  22. Katedra Informatyki Model BIR • Wstępnie inicjujemy pi jako stałe dla każdego xi w zapytaniu. • Ponieważ nie mamy żadnych informacji wstępnych, przyjmujemy wszystkie pi = 0.5. Jak już wcześniej wspomnieliśmy przyjmujemy również ri = n/N. • Określamy przybliżenie zbioru dokumentów relewantnych. • Wybieramy |V| dokumentów o najwyższym RSV wyznaczonym dla danych pi i ri. • Niech Vi będzie wśród nich zbiorem dokumentów zawierających term xi. • Obliczamy kolejne przybliżenia pi i ri. • pi = | Xi | / |V|. • ri = (n - |Vi |) / (N-|V|) • Punkty 2 i 3 powtarzamy, aż do osiągnięcia zbieżności.

More Related