Ch 12 Language models for information retrieval

Ch 12 Language models for information retrieval 2009. 12. 31. 최 성 빈

Overview • User가 좋은 query를 떠올리는 방법은, Relevant document에 나올법한 단어를 생각해서 그것을 query로 사용하는 것이다. • Information Retrieval에 Language modeling기법이란 이런 생각을 직접적으로 모델링 한 것이다. • 특정 문서에 query word가 자주 등장한다 -> 그 문서의 Document model이,query를 생성할 법(is likely) 한 것이다. -> 그 document가 query에 good match이다.

Overview 11장에서 살펴본 전통적인 확률론적 접근법 • 명시적으로, 확률 P( R=1 | q, d )을 모델링하는 방법 Basic language modeling approach • 각 문서 d 별로,probabilisticlanguage model를 생성하고 Md • 그 모델이 쿼리를 생성할 확률에 따라 문서를 rank한다. P( q | Md ) 목차 • 12.1 : Language model의 개념 • 12.2 : IR에서 가장 많이쓰이는 language modeling 접근법인 query likelihood model • 12.3 : IR에서 쓰이는 language modeling기법들 간의 비교 • 12.4 : language modeling 접근법의 몇 가지 응용

12.1 Language Models 12.1.1 Finite automata and language models • Automaton : self-operating machine • ‘Document model이 query를 생성한다’는 말은 무슨 의미인가?

12.1.1 Finite automata and language models • Finite automaton의 예 생성될 수 있는 모든 string의 집합 : language of automaton

12.1.1 Finite automata and language models • Language Model 각 node가, 하나하나의 term을 생성하는데 있어 확률 분포를 가지고 있다. language model은 특정vocabulary에서 뽑아낸 string에 probability measure를 주는 함수이다.

12.1.1 Finite automata and language models 두 모델을 비교할 때는, likelihood ratio를 계산해서 할 수 있다. STOP, (1-STOP) 의 확률이 계산에 필요치 않음

12.1.2 Types of language models • Term의 순서에 대해 어떻게 확률을 적용할 것인가? 확률의 Chain rule unigram language model bigram language model

12.1.2 Types of language models • Probabilistic context-free grammar와 같이 더 복잡한 문법 기반 language model들이 있지만, 이런 방법은 IR에서는 잘 쓰이지 않는다. • 음성 인식, 철자 교정, 기계 번역 등의 작업에서는 주변 문맥에서 특정 term의 확률이 필요하지만, IR은 그런 작업들에 비해 문장의 구조에 직접적으로 의존하지 않는다. • IR에서 가장 많이 쓰이는 language model은 unigram model로서, 대부분 문서의 topic을 판단하는데 충분하다. • IR에서 language model은 개별 문서에서 평가되므로, 충분한 양의 training data를 확보할 수 있을지 가 의문이다. -> data sparseness가 주는 손해가,richer model이 주는 이득을 넘어선다. Training data가 제한된 상황이라면, more constrained model더 좋은 성능을 보인다. • unigram model이 평가나 적용에 있어 상위 모델들보다 더 효율적이다.

12.1.2 Types of language models • 하지만 IR에서, 구문이나 쿼리의 근접도 등에서 중요도를 고려할 때, 앞으로의 작업은 보다 정교한 language model을 이용해야할 것이다. • 이런 노력은 11장의 Rijsbergen의 모델에 필적할 만 하다.

12.1.3 Multinomial distributions over words • unigram language model에서, 단어의 순서는 고려하지 않는다 -> ‘bag of word model’ 다항계수(multinomial coefficient) ex> ‘apple appleapple orange orange’ apple 1/3 , orange 1/6, lemon 1/2 P(d) = 5! / 3! 2! 0! * (1/3)3 * (1/6)2 * (1/2)0 • 다항계수는 한 문서에 대한 서로 다른 모델들 간의 likelihood ratio에 영향을 주지 않으므로, 계산에서 생략할 수 있다.

12.1.3 Multinomial distributions over words • Language model을 디자인하는데 있어 기본적인 문제는 무엇을 모델로 사용해야 하는지 우리가 모른다는 것이다. • 하지만 우리는 모델을 대표하는 텍스트의 샘플을 가지고 있다. (예를 들어, 음성 인식에서, 우리는 spoken text의 training sample을 가지고 있다) • 하지만 미래에 사용자는, 우리가 관찰해 온 것과 다르게, 다른 단어를 다른 순서로 사용할 것이다 -> 따라서 모델은 관찰된 데이터를 넘어 , 모르는 단어나 순서도 일반화할 수 있어야 한다. • IR에서 우리가 채택하는 전략은 이렇다. 문서d는 (하나의 세부 주제처럼) 모델 분포에서 뽑아낸, 대표성 있는 샘플이다. 이 샘플로부터 language model을 추정한 뒤, 모델을 이용해 확률을 평가하고, 쿼리를 생성할 확률에 따라 문서를 rank한다.

12.2 The query likelihood model • 12.2.1 Using query likelihood language models in IR • IR에서 language model을 이용하는 가장 기본적인 방법은 query likelihood model이다. • Collection의 각 document d로부터 language model(Md)를 생성한다. • 목적은 P( d | q )에 따라 문서들을 rank하는 것이다. - 문서가쿼리에 relevant한지에 대한 likelihood • Bayes rule • P(q), P(d)는 이 경우 무시될 수 있다 => 따라서 P( d | q )는 P( q | d ) • 문서는 각각의 document model에서의 랜덤 샘플에서, 쿼리가 관찰될 수 있는 확률 로서 rank된다.

12.2.1 Using query likelihood language models in IR => P( q | d ) 가장일반적인 방법은 multinomial unigram language model • 13장의 multinomial naïve Bayes model과 동일 • 각 document가 class로서 각각의 “language”로 간주됨 방법 • 1. 각문서에서 language model을 추론해낸다. • 2. P( q | Mdi ) 을 계산한다. (각 문서 모델에서 쿼리를 생성할 확률) • 3. 이 확률에 따라 문서들을 rank한다. 이 모델은 ‘사용자가 prototype document를마음속에 가지고 있으며, 이 문서에 등장하는 단어에 기반해 쿼리를 생성한다.’ 라는 직관에서 만들어졌다.

12.2.2 Estimating the query generation probability • P( q | Md )를 어떻게 계산할 것인가? Maximum likelihood estimation과 unigram assumption을 기반으로 Md에서 query를 생성할 확률 • MLE : estimating probability as the relative frequency • 문제점 : 쿼리에 있는 단어이지만, 문서에 존재하지 않는 경우 => P ( q | Md ) 가 0이 된다 => strict conjunctive semantics ( query의 모든 단어가 문서에 있어야 한다 ) 단어가 문서에 한번 등장하는 경우, 한번의등장은 부분적으로 우연에 의한 것일 수 있기 때문에 overestimate될 수 있다. => estimation에 문제

12.2.1 Estimating the query generation probability • 이 문제의 대안은 smoothing • 이 모델에서 smoothing의 역할은 zero probability를 피하기 위한 것 뿐 아니라, smoothing이 실제로 term weighting component의 주요 부분을 구현하기 때문 • unsmoothed model은 term weighting component가 부족하기 때문에 성능이 좋지 못하다.

12.2.1 Estimating the query generation probability 이번 장에서는, 지난 장과는 다른 두 가지 기법을 살펴본다. • Linear interpolation language modeling • Bayesian smoothing 문서에 등장하지 않는 term도 쿼리에 생성 가능하게 하지만, 확률은 랜덤 확률에 의해 기대되는 경우 이하로 설정한다. • cft : collection에서 term의 raw account • T : 전체 collection에서 raw size (token의 개수)

12.2.1 Estimating the query generation probability Linear interpolation language modeling • document-specific multinomial distribution과 전체 collection에서 얻어진 multinomial distribution의 mixture를 이용하는 것 Mc : language model built from the entire document collection

12.2.1 Estimating the query generation probability Bayesian smoothing • 전체 collection으로부터 만들어진 language model을 Bayesian updating process의 prior distribution으로 활용한다. (11장의 uniform distribution과 다르다)

12.2.1 Estimating the query generation probability • IR실험에서 두 가지 smoothing방법 모두 좋은 성능을 보여주었다. • 두 방법은 개념적으로 유사하다. 단어에 대한 확률이, 할인된 MLE값과 전체 collection에서의 prevalence에 대한 비율값, 이 두가지를 결합해서 결정된다. parameter와 관련해서.. • λ값이 작거나 α값이 큰 경우, smoothing되는 정도가 더 크다는 것을 의미 • 성능 최적화를 위한 parameter tuning을 할 수 있다 (line search등등) • 한 가지 예로, parameter값을 query size의 함수로 만드는 방법이 있다. - 짧은 query에는 smoothing양이 작은 것이 더 적합하고, 긴 query에는 smoothing이 많은 것이 적합하다.

12.2.1 Estimating the query generation probability • 문제점 : 쿼리에 있는 단어이지만, 문서에 존재하지 않는 경우 => P ( q | Md ) 가 0이 된다 => strict conjunctive semantics ( query의 모든 단어가 문서에 있어야 한다 ) 단어가 문서에 한번 등장하는 경우, 한번의등장은 부분적으로 우연에 의한 것일 수 있기 때문에 overestimate될 수 있다. => estimation에 문제 • IR의 language model에서 smoothing의 역할은 estimation problem을 극복하기 위한 것에 그치지 않는다. • smoothing은 모델이 가지는 좋은 속성에 필수적인 것이다.

12.2.1 Estimating the query generation probability query : click shears λ=0.5

12.2.3 Ponteand Croft’s experiments • Ponte와 Croft(1998)는 IR에서 language modeling 방법을 처음 실험해 보였다. • 지금까지 살펴본 language model의 방식은 Miller et al. 1999, Hiemstra 2000의두 가지 multinomial의 혼합 방식이지만, Ponte와 Croft는 multivariate Bernoulli model을 제시했다. • multinomial의 사용은 이후 language model연구 및 실험에서 표준으로 자리잡았다. • Ponte와 Croft는 전통적인 tf-idf weights 방식에 비해 language modeling 방법의 term weights의 효과성을 강하게 주장해 왔다.

12.2.3 Ponteand Croft’s experiments • TREC의 disk2, disk3의 topics 202~250에서의 tf-idf와 language modeling의 평가 결과

12.3 Language modeling versus other approaches in IR • language modeling은 텍스트 검색에 있어 참신한 방식을 제공한다. • Ponte와 Croft(1998)가 강조했 듯, language modeling방식은 query 와 document의 match를 scoring하는 데 다른 방법론을 제시하며, language model의 확률론적인 기반이, 사용하는 weight를 향상시켜서, 모델의 성능을 향상시킬 것이라는 기대를 가지고 있다. • 가장 큰 이슈는 document model의 estimation과 관련한 것으로, 어떻게 효과적으로 smoothing을 수행할 것인가의 선택과 같은 것이다.

12.3 Language modeling versus other approaches in IR • 모델은 좋은 성능을 보여왔는데, 11장의 BIM과같은 확률론적 방법에 비교할 때가장 큰 차이는, 명시적으로 relevance를 모델링하는 방식을 제외했다는 것이다 • BIM에서는 이것이 평가의 중심에 있다 - 명시적으로, 확률 P( R=1 | q, d ), P(R=0 | q, d)을 모델링 => 다른 reference에 의하면 이것은 정확한 표현은 아니다. • language modeling방식은 document와 information need의 표현이 같은 type의 객체라는 가정을 하고, (language modeling의 방법론과 도구를 가져와) 그들간의 match를 평가한다. 그 결과로 생성된 모델은 수학적으로 정확하고, 개념적으로 간결하며, 전산학적으로 구현하기 쉽고, 직감적이다.

12.3 Language modeling versus other approaches in IR language model에 대한 반론도 있을 수 있다. • document와 information need의 표현이 동일하다는 가정은 비현실적이다. • 최근의 language modeling기법은 매우 단순한 unigram model을 사용하고 있다. • phrase 혹은 passage matching 혹은 boolean retrieval을 수행하기 위해서는 unigram model을 넘어설 필요가 있다. • relevance에 대한 명확한 개념 없이,relevance feedback이나 user preference와 같은 부분을 모델에 통합하기 어렵다. • language modeling의 이어지는 후속 연구들에서, relevance feedback을 모델에 반영한다던지, querylanguage와 document language간의 mismatch를 허용한다 던지 하는 식으로, 이러한 부분들에 관심을 보이고 있다.

12.3 Language modeling versus other approaches in IR language model은 전통적인 tf-idf모델과 상당한 관계가 있다. 유사점 • tf를 사용한다. • 최근 연구는 document length normalization의 중요성을 인식하고 있다. • document에서 생성된 확률과 collection에서 생성된 확률을 섞는 것은 idf와 유사하다– 전체 collection에서는 드물지만, 특정 문서에만 존재하는 term은 ranking에 더 많은 영향력을 행사한다. • 대부분의 실제 구현에서는, 각각의 term이 독립적인 것으로 다룬다. 차이점 • 직감적으로 geometric이 아닌 probabilistic 하다 • 수학 모델은 heuristic이 아닌 principled 하다 • tf나 document length normalization등이 사용되는 세부적인 방식

12.3 Language modeling versus other approaches in IR 성능과 관련해서 • 최근의 연구에 의하면, language modeling방식이 tf-idf와 BM25weght등을 제치고, 검색실험에서 매우 효과적이었다 . • 하지만, 잘튜닝된 전통적인 vector space 검색 시스템에 비교해서 성능이 월등히 우월한지에 대한 충분한 증거는 가지고 있지 않다.

12.4 Extended langugage modeling approaches • 기본 language modeling방법론을 확장해서, IR에서 language model을 다른 방법으로 사용할 수 있다. (a) query likelihood : document language model(Md)가 query를 생성할 확률 (b) document likelihood : query language model(Mq)가 document를 생성할 확률 (c) model comparison : document와 query 각각에서 모델을 만든 뒤, 두 모델이 서로 어떻게 다른지 비교

12.4 Extended langugage modeling approaches Document likelihood model • 단점 : query text에 기반한 language model은 language model의 평가에 사용할 텍스트가 적다. • 장점 : relevance feedback을 모델에 반영하기 쉽다 - relevant document에서 추출된 term으로 query를 확장한 뒤, query의 language model(Mq)을 업데이트 한다. • Lavrenko와 Croft(2001)은 document likelihood model을 구현해서 relevance model을 만들었으며, pseudo relevance feedback을 통합했다. 매우 좋은 실험 결과를 얻었다.

12.4 Extended langugage modeling approaches Model comparison • Lafferty와 Zhai(2001)는 지금까지 세 가지 방식모두를 정리하고, 문서 검색을 위한 general risk minimization 기법을 개발했다. • query에 relevant한 document를 리턴할risk를 모델링하는 한 방법은, 각각의 language model에 Kullback-Leibler(KL) divergence를 이용하는 것이다. • KL divergence: 정보 이론에서 기원한 용어 비대칭적인 divergence measure Mq의 확률분포가 Md를 모델링하는 데 있어 얼마나 나쁜지(bad)를 측정

12.4 Extended langugage modeling approaches • Lafferty와 Zhai(2001)에 의하면 model comparison방식이 query-likelihood 및 document-likelihood방식 모두를 앞지른다. • 한 가지 단점은, ranking함수로서의 KL divergence는 쿼리 간 비교가 어렵다는 것이다 – 이것은 ad hoc retrieval에서는 상관 없지만, topic tracking과 같은 application에서는 중요할 수 있다. • Kraaij와 Spitters(2003)는 다른 대안을 제시 - similarity를 normalized log-likelihood ratio로 모델링한다 (혹은 동일한 의미로, cross-entropies간의 차이로 모델링한다)

12.4 Extended langugage modeling approaches • Basic language modeling은 동의어와 같은 대체 표현을 지원하지 않는다. • 여기에 Berger와 Lafferty(1999)는 translation model을 제시했다. • translation model - 쿼리의 단어가 문서에 없더라도, 같은 의미를 가진 alternate term을 translation함으로서 쿼리 단어를 생성하도록 한다. - cross-language IR에서도 적용될 수 있다. • translational model을 conditional probability distribution T( | )로 가정

12.4 Extended langugage modeling approaches • 이 모델은 computationally intensive하다. • translation model을 구축해야 한다. 1. 기존의 별도로 구축된 자원을 활용한다. ex> Thesaurus나 bilingual dictionary, 기계번역 시스템의 translation dictionary 2. 같은 말을 바꾸어 표현했거나 요약한 텍스트가 존재하는 경우, 이것을 활용할 수 있다. ex > Title과 Abstract hypertext환경에서 해당 텍스트로 anchoring하는 문서

12.4 Extended langugage modeling approaches • language modeling 기법을 확장하는 것은 활발한 연구 영역이다. • 일반적으로 translation model, relevance feedback model, model comparison 방법 모두가 basic query likelihood language model에 비해 더 나은 성능의 보였다.

Ch 12 Language models for information retrieval

Ch 12 Language models for information retrieval

Presentation Transcript

Language Models for Information Retrieval

Natural Language Processing for Information Retrieval

Cross-Language Information Retrieval

Cumulative Progress in Language Models for Information Retrieval

Information Retrieval – Language models for IR

Cross-Language Information Retrieval

Advanced Information- Retrieval Models

Information Retrieval Models

Two-stage Language Models for Information Retrieval

Probabilistic Models in Information Retrieval SI650: Information Retrieval

Natural Language Processing for Information Retrieval

Language and Document Models in Information Retrieval

Information Retrieval Models

Information Retrieval (12)

Language Modeling Frameworks for Information Retrieval

Information Retrieval Models

Dependence Language Model for Information Retrieval

Discriminative Models for Information Retrieval