Chap 11 probabilistic information retrieval
This presentation is the property of its rightful owner.
Sponsored Links
1 / 26

Chap. 11 Probabilistic Information Retrieval PowerPoint PPT Presentation


  • 122 Views
  • Uploaded on
  • Presentation posted in: General

Chap. 11 Probabilistic Information Retrieval. Review of basic probability theory(1/2). 어떤 사건이 일어날 확률은 0 ≤ p(A) ≤ 1 이다 . 두 개의 사건 A 와 B 의 joint event 가 일어날 확률은 p(A, B) 로 표현한다 . Chain rule 사건 A 가 일어나지 않고 B 는 일어날 확률 Partition rule. Review of basic probability theory(2/2). Bayes ’ rule

Download Presentation

Chap. 11 Probabilistic Information Retrieval

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Chap 11 probabilistic information retrieval

Chap. 11 Probabilistic Information Retrieval


Review of basic probability theory 1 2

Review of basic probability theory(1/2)

어떤 사건이 일어날 확률은 0≤p(A) ≤1이다.

두 개의 사건 A와 B의 joint event가 일어날 확률은 p(A, B)로 표현한다.

Chain rule

사건 A가 일어나지 않고 B는 일어날 확률

Partition rule


Review of basic probability theory 2 2

Review of basic probability theory(2/2)

  • Bayes’ rule

  • 사건 A의 발생확률에 대한 초기 추정치가 중요

    • Prior probability(A)

    • Posterior probability(A|B)

      • 사건 B 발생을 확인한 후,A가 발생할 확률

  • 사건의 우도(odds)


The probability ranking principle 1 2

The probability ranking principle(1/2)

  • The 1/0 loss case

    • Notation

      • Rd,q: d가 query q에 대해서 적합한지(relevant) 나타내는 변수

    • 확률평가 원리(probability ranking principle, PRP)의기반

      • 사용자가 필요로 하는 정보에 대해 해당 문서가 적합한지를 P(R=1|d,q)로 표현

    • 1/0 loss: 적합하거나 그렇지 않거나로 판단(retrieving cost는 없다고 가정)

    • Top k documents: 최상의 결과를 보이는 상위 k개의 문서를 점수의 내림차순으로 정렬

    • Bayes optimal decision rule


The probability ranking principle 2 2

The probability ranking principle(2/2)

  • Theorem 11.1 PRP는 예측되는 손실(Bayes위험이라고도 불림)을 1/0 loss 이하로 줄인다는 점에서 최적(optimal)이다.

    • 실제 세계에서는 반드시 타당하다고 말하기는 어렵지만 IR 모형을 개발하는 데에 있어서 유용하다.

  • The probability ranking principle with retrieval costs

    • C1: 적합한 문서 검색 소요비용, C0: 적합하지않은 문서 검색 소요비용

    • 전체 문서 d’중에서 아직 검색해 오지 않은 문서 d가 다음 조건을 충족할 때 다음 순번에 d 검색


  • The binary independence model

    The binary independence model

    • Binary independence model(BIM)

      • Notation

        • 문서 vector

          • Term t가 문서 내에 존재하면 xt=1, 그렇지 않으면xt=0

      • “independence” : 문서 안의 각 term들이 다른 term의 존재여부에 영향을 주지 않는다.

      • 적합성에 대한 독립성 가정

        • 어떤 문서의 적합성은 다른 문서의 적합성과 무관하다(실제로는 비현실적)

      • BIM하에서의 적합/비적합 확률

        • 정확한 수치는 알 수 없으나, 추정 가능(prior probabilities)

    : 쿼리에 적합한 문서를 찾을 확률

    : 쿼리에 부적합한 문서를 찾을 확률


    The binary independence model1

    The binary independence model

    • Deriving a ranking function for query terms

      • 적합성의 Odds는 적합성의 확률과 같은 방향으로 증감하므로(monotonic), 계산의편의를 위해 odds를 사용

      • Naïve Bayes conditional independence assumption

        • 특정문서 안에 단어의 존재는 다른 단어의 존재와 독립적

    그러므로


    The binary independence model2

    The binary independence model

    • xt의 값이 0 또는 1일 뿐이므로(binary) 다음과같이 분리

    • pt와 ut

    • 모형을단순화하는 또 다른 가정

      • Query에 존재하지 않는 term들의 경우 적합한문서에 그 단어가 존재할 확률과 적합하지 않은 문서에 존재할 확률이 같다고 가정(qt=0이면 pt=ut)


    The binary independence model3

    The binary independence model

    • 단순화하는 가정에 따르면, qt=0인 경우는 결과에 차이를 주지 않으므로,

    • 다르게표현해 가장 오른쪽 PI를 xt가 0일 때와 1일 때 모두의 곱으로 바꾸면,

    • 계산해야 할 값

    Constant!!

    결과에 영향을 미치지 않음


    The binary independence model4

    The binary independence model

    • retrieval status value(RSV)

    • 다음과같이 표기하기로 하면,

      • 문제는,term t가적합한 문서에 존재할 확률(pt)에 대한 odds, 문서가 적합하지 않다면 term t가부적합한 문서에 존재할 확률(ut)의 odds로 축소됨

      • RSVd는 다음과 같이 표기 가능


    The binary independence model5

    The binary independence model

    • Probability estimates in theory

      • 앞의식들을 달리 표현하면(여기에서 ct는 가중치)

      • 단순한 smoothing을 적용해 ½을 모두 더하면


    The binary independence model6

    The binary independence model

    • 확률을상대적 빈도로 추정해 계산하는 것은 일종의 maximum likelihood estimate이다.

    • 이런pseudocounts는 다음 식에 나타난 것과 같은 Bayesian prior로서 어휘의 분포를 활용하는 것과 부합한다.

  • Probability estimates in practice

    • 컬렉션 내에서 적합한 문서는 극소수일 것이라는 가정을 가지면, ut는 dff/N이다. 그러므로 아래의 식이 성립한다.


  • The binary independence model7

    The binary independence model

    • Pt의 추정방법

      • 알려진 적합문서에서 어휘의 발생빈도를 활용

      • Croft와 Harper(1979)는 combination match model 적용

        • 모든 어휘에 대해 pt는 상수, pt=0.5라고 가정

      • Greiff(1998)는 term t의 발생을 collection 수준에서 추정하면 보다 좋은 추정치를 확보할 수 있다고 주장


    The binary independent model

    The binary independent model

    • Probabilistic approach to relevance feedback

      • (pseudo) relevance feedback 활용(iterative)

        • 초기확률값pt와 ut를 상상. 초기에는 pt가 1/2라고가정.

        • 적합문서집합 R={d: Rd,q = 1}에대해 최선의 추정값을 얻기 위해 현재의 pt와 ut값 활용

        • R 모형을 보완하기 위해 사용자와 상호작용. User relevant judgment(V) 사용. V는두 하위집합으로 구성.

        • VR과 VNR을이용해 pt와 ut재추정

          • VR이나 VNR의 문서 개수가 충분히 크다면 , 문서들로부터 maximum likelihood estimate를 통한 직접 추정 가능


    The binary independence model8

    The binary independence model

    • VR과 VNR의 크기가 작을 경우

      • 통계적으로 신뢰하기어려움(noisy)

      • 새로운정보를 기존의 guess와 결합하는 것이 유용할 때 있음

        • k: estimate 일련번호(횟수). K: 다음 iteration에 대한 Bayesian weighting, 특별한 조건이 없는 한 5 정도의값이 적당(앞 iteration의 결과를 이번 iteration에 반영하되, 강한 가중치를 주어, 이번 iteration의 small case들이 미치는 영향을 줄임)

  • Step 2에서부터 반복


  • The binary independence model9

    The binary independence model

    • pseudo relevance feedback을활용하는 또 다른 직접적인 방법

      • VR=V라고 가정

      • pt와 ut의 초기값은 위와 같이 가정

      • 적합문서집합(relevance document set)의 크기에 대한 추정치 결정(작게 잡아 최상위에 rank된 몇 개의 문서만 사용하는 보수적인 방법이 적합)

      • pt와 ut에 대한 추정치 개선

      • Ranking과 결과값이 수렴할 때까지 2단계에서부터 계속 반복


    The binary independence model10

    The binary independence model

    • pt를 정한 후 가중치 ct를 정한다.

    • 하지만, pt/(1-pt)를 갖고 계산하는 것은 용어 t가등장하는 문서중에서 적합문서의 비율이라 발생빈도와 전적으로 일치하지는 않는다.


    An appraisal and some extensions

    An appraisal and some extensions

    • An appraisal of probabilistic models

      • 확률론적 정보검색 모형에 대한 적절한 확률 근사치를 얻기 위해 필요한 가정들

        • A Boolean representation of documents/queries/relevance

        • Term independence

        • Terms not in the query don’t affect the outcome

        • Document relevance values are independend

      • BM 25 weighting scheme는 등장 이후널리 받아들여짐


    An appraisal and some extensions1

    An appraisal and some extensions

    • Tree-structured dependencies between terms

      • Term 들이 independent 하다는 가정을 제거

      • 각 term은 단 하나의 다른 term에 의존 가능

      • 1970년대 처음 제안됐을 때에는 estimation 문제가 있었으나, 1990년대 Friedman과 Goldszmidt가 tree-augmented Naïve Bayes model을제시한 후 재조명됨


    An appraisal and some extensions2

    An appraisal and some extensions

    • Okapi BM25: A nonbinary model

      • Binary independence model은원래 짧은 카탈로그 기록이나 길이가 일정한 초록들을 대상으로 만들어졌다.

      • 대안적인 모형은 어휘발생빈도(term frequency), 문서 길이(document length)에 관심을 가져야 한다.

      • BM 25 weighting scheme(Okapi weighting이라고 불림)

        • 문서 길이와 어휘 발생빈도를 반영하는 확률 모형


    An appraisal and some extensions3

    An appraisal and some extensions

    • 추론 과정

      • Idf만을 고려한 가장 단순한 문서 구조

      • Relevance feedback이 없는 상태에서는 S=s=0으로 간주(ut≈ dft/N)

      • 이 수식에서 , dft> (0.5 * 문서 전체 개수)이면RSVd< 0.

      • 저자들은 stopword list 등을 사용하면, 문제가 되는 상황이 발생하지 않는다고 말함


    An appraisal and some extensions4

    An appraisal and some extensions

    • 문서 길이와 tf를 고려하여 변형

      • tftd:문서 d 내의 어휘 t의 빈도

      • Ld: 문서 길이, Lavg: 문서평균 길이

      • k1: 양의 tuning parameter(binary일 때 0)

      • b: document length에 의한 normalization의 정도를 조절하는 tuning parameter(0≤ b≤1)


    An appraisal and some extensions5

    An appraisal and some extensions

    • Query가 길 때, Query에 대한 normalization 적용

      • tftq: query에 어휘 t의 발생빈도

      • K3: tftq scaling에 간여하는 tuning parameter

    • 기존의많은 실험 결과 다음의 parameter setting이 reasonable한 것으로 간주됨

      • k1과 k3는 1.2~2 사이 값

      • b는 0.75


    An appraisal and some extensions6

    An appraisal and some extensions

    • relevance judgment에 대한 정보를 갖고 있다면


    An appraisal and some extensions7

    An appraisal and some extensions

    • Bayesian network approach to information retrieval

      • Turtle and Croft(1989, 1991)

        • 문서들간의의존성을 더 잘 모형화하기 위한 복잡한 네트웤 구성

        • 두 개의 parts

          • Document collection network

            • Large, & precomputed

            • Maps from documents to terms to concepts

          • Query network

            • Small, but new network to be built each term

            • Maps from query terms to query subexpressions, to user’s information need

      • InQuery: University of Massachusetts에서 만든 text retrieval system


    An appraisal and some extensions8

    An appraisal and some extensions


  • Login