130 likes | 487 Views
제 10 장 벡터 공간 모델. - 정 보 검 색 론 -. 순서. 10-1 유사도 계산 10-2 색인어 가중치 산출 10-3 색인어 가중치 산출 기법 분석. D. t 2. θ. Q. t 1. t 3. 10 벡터 공간 모델. 벡터 공간 모델 문서와 질의를 가중치가 부여된 색인어들의 벡터로 표현 W di : 문서 D 에서 i 번째 색인어 t i 의 가중치 W qi : 질의 Q 에서 i 번째 색인어 t i 의 가중치. 10-1 유사도 계산. 유사도 계산
E N D
제 10장 벡터 공간 모델 - 정 보 검 색 론 -
순서 10-1 유사도 계산 10-2 색인어 가중치 산출 10-3 색인어 가중치 산출 기법 분석
D t2 θ Q t1 t3 10 벡터 공간 모델 • 벡터 공간 모델 • 문서와 질의를 가중치가 부여된 색인어들의 벡터로 표현 • Wdi : 문서 D에서 i번째 색인어 ti의 가중치 • Wqi : 질의 Q에서 i번째 색인어 ti의 가중치
10-1 유사도 계산 • 유사도 계산 • 문서 D와 질의 Q의 유사도 • ex) d1 : { (정보, 0.3), (검색, 0.5), (시스템, 0.2) } • d2 : { (정보, 0.3), (전송, 0.7) } • q1 : { (정보, 0.3), (검색, 0.7) } • Sim (d1, q1) = 0.3*0.3 + 0.5*0.7 = 0.44 • Sim (d2, q1) = 0.3*0.3 = 0.09 • 질의과 문서 사이의 유사도 값에 따라 내림차순으로 문서정렬 • → 가중치 값에 의해 결정 : 가중치 산출 기법은 검색효과에 영향
10-2 색인어 가중치 산출 • 색인어 산출 구성 요소 • 1. 출현 빈도(term frequency) • - 문서 내 자주 출현하는 색인어에 높은 가중치 부여 • 2. 장서 빈도(collection frequency) • - 전체 문서들 중 적은 문서에 출현하는 색인어에 높은 가중치 부여 • 3. 정규화 요소(normalization) • - 모든 문서 벡터 길이 일치 • - 작은 크기의 문서들이 유사도 계산에 있어 공정하게 취급
10-2 색인어 가중치 산출 • 색인어 산출 구성 요소
10-2 색인어 가중치 산출 • lnc · ltc 기법 • lnc : 문서 색인어 가중치 산출에 적용 • - 색인어 출현 빈도의 로그 값을 코사인 정규화 • ltc : 질의 색인어 가중치 산출에 적용 • - 색인어 빈도와 역 문헌 빈도를 곱한 값을 코사인 정규화
10-3 색인어 가중치 산출 기법 분석 • 문서 형태 분류 • 출현 빈도 벡터 길이(tf-vector length) : 출현 빈도의 합 • - tfi : 색인어의 출현 빈도 • - n : 벡터를 구성하는 색인어의 수 • ex) d3 = { (t1, 1), (t2, 2), (t3, 3), (t4, 4) } • 문서 d3의 출현 빈도 벡터 길이 : 1+2+3+4 = 10 • 출현 빈도 벡터에 따른 문서 분류 • - 짧은 출현 빈도 벡터 길이(short tf-vector length) • - 중간 출현 빈도 벡터 길이(median tv-vector length) • - 긴 출현 빈도 벡터 길이(long tv-vector length) • 다루는 주제의 수에 따른 문서 분류 • - 단일 주제 (single topic) • - 다중 주제 (multiple topic)
10-3 색인어 가중치 산출 기법 분석 • 색인어 가중치 산출 기법의 특성 • 출현 빈도 벡터 길이 정규화 기법 • d4 = { (t1,1), (t2,1), (t3,1), (t4,1), … , (tn, 1) } • d5 = { (t1,2), (t2,2), (t3,2), (t4,2), … , (tn, 2) } • - 출현 빈도 벡터길이 미포함 가중치 기법 : lnn(ln tf+1.0) • d4.lnn = { (t1,1), (t2,1), (t3,1), (t4,1), … , (tn, 1) } • d5.lnn = { (t1,1.69), (t2,1.69), (t3,1.69), (t4,1.69), … , (tn, 1.69) } • → 같은 색인어를 포함한 질의에 대한 유사도 계산 결과는 • d5가 d4에 비해 1.69배의 유사도를 갖는다 • → 출현 빈도 벡터 길이를 고려할 때 문서에서의 유사한 중요도를 갖고 • 있지만(거의 동일 문서) d5문서가 상위 문서로 결정 될 수 있다
10-3 색인어 가중치 산출 기법 분석 • 출현 빈도 벡터 길이 정규화 기법 • 일반적으로 모든 문서를 동등하게 취급되어야 함 • - 출현 빈도 벡터길이 정규화(코사인 정규화) : • d4.lnc • d5.lnc • 장점 • - 코사인 정규화 요소를 포함하지 않은 기법보다 높은 검색 효과 제공 • 단점 • - 다중 주제를 다루는 문서의 검색에 대한 효과 저하
10-3 색인어 가중치 산출 기법 분석 • 여러가지 주제를 다루는 문서 • 문서 d4는 단일 주제, d5는 d4의 주제를 포함한 여러가지 다중 주제 • lnc(코사인 정규화) 기법 적용 • 유사도 계산( q2 = { (t1,w1), …, (tm,wm), (tm+1,0), …, (tn,0) } ) • → n>m이므로 d4에 높은 순위를 부여 • 같은 양의 정보를 포함한 문서이므로 올바르지 않은 결과
10-3 색인어 가중치 산출 기법 분석 • 최대 출현 빈도 정규화 • 특정 경우 적용 • ann(0.5 + 0.5*tf/maxtf) 기법 적용 • → 동일한 벡터로 표현 • 다음 경우 적용 불가 • - ann 적용 - 색인어 가중치 산출 기법(lnc) 적용 • → 색인어 t1만이 다른 거의 동일한 문서지만 d8이 높은 순위를 받음
10-3 색인어 가중치 산출 기법 분석 • 색인어 가중치 산출 기법 분류 • 1. 코사인 정규화를 수행하는 가중치 기법 • 2. 최대 정규화를 수행하고 코사인 정규화를 실행하지 않는 기법 • 3. 코사인 정규화와 최대 정규화를 모두 수행하지 않는 기법 • - 색인어 가중치 산출 기법에 따라 다른 형태의 문서 검색