1 / 13

제 10 장 벡터 공간 모델

제 10 장 벡터 공간 모델. - 정 보 검 색 론 -. 순서. 10-1 유사도 계산 10-2 색인어 가중치 산출 10-3 색인어 가중치 산출 기법 분석. D. t 2. θ. Q. t 1. t 3. 10 벡터 공간 모델. 벡터 공간 모델 문서와 질의를 가중치가 부여된 색인어들의 벡터로 표현 W di : 문서 D 에서 i 번째 색인어 t i 의 가중치 W qi : 질의 Q 에서 i 번째 색인어 t i 의 가중치. 10-1 유사도 계산. 유사도 계산

margot
Download Presentation

제 10 장 벡터 공간 모델

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 제 10장 벡터 공간 모델 - 정 보 검 색 론 -

  2. 순서 10-1 유사도 계산 10-2 색인어 가중치 산출 10-3 색인어 가중치 산출 기법 분석

  3. D t2 θ Q t1 t3 10 벡터 공간 모델 • 벡터 공간 모델 • 문서와 질의를 가중치가 부여된 색인어들의 벡터로 표현 • Wdi : 문서 D에서 i번째 색인어 ti의 가중치 • Wqi : 질의 Q에서 i번째 색인어 ti의 가중치

  4. 10-1 유사도 계산 • 유사도 계산 • 문서 D와 질의 Q의 유사도 • ex) d1 : { (정보, 0.3), (검색, 0.5), (시스템, 0.2) } • d2 : { (정보, 0.3), (전송, 0.7) } • q1 : { (정보, 0.3), (검색, 0.7) } • Sim (d1, q1) = 0.3*0.3 + 0.5*0.7 = 0.44 • Sim (d2, q1) = 0.3*0.3 = 0.09 • 질의과 문서 사이의 유사도 값에 따라 내림차순으로 문서정렬 • → 가중치 값에 의해 결정 : 가중치 산출 기법은 검색효과에 영향

  5. 10-2 색인어 가중치 산출 • 색인어 산출 구성 요소 • 1. 출현 빈도(term frequency) • - 문서 내 자주 출현하는 색인어에 높은 가중치 부여 • 2. 장서 빈도(collection frequency) • - 전체 문서들 중 적은 문서에 출현하는 색인어에 높은 가중치 부여 • 3. 정규화 요소(normalization) • - 모든 문서 벡터 길이 일치 • - 작은 크기의 문서들이 유사도 계산에 있어 공정하게 취급

  6. 10-2 색인어 가중치 산출 • 색인어 산출 구성 요소

  7. 10-2 색인어 가중치 산출 • lnc · ltc 기법 • lnc : 문서 색인어 가중치 산출에 적용 • - 색인어 출현 빈도의 로그 값을 코사인 정규화 • ltc : 질의 색인어 가중치 산출에 적용 • - 색인어 빈도와 역 문헌 빈도를 곱한 값을 코사인 정규화

  8. 10-3 색인어 가중치 산출 기법 분석 • 문서 형태 분류 • 출현 빈도 벡터 길이(tf-vector length) : 출현 빈도의 합 • - tfi : 색인어의 출현 빈도 • - n : 벡터를 구성하는 색인어의 수 • ex) d3 = { (t1, 1), (t2, 2), (t3, 3), (t4, 4) } • 문서 d3의 출현 빈도 벡터 길이 : 1+2+3+4 = 10 • 출현 빈도 벡터에 따른 문서 분류 • - 짧은 출현 빈도 벡터 길이(short tf-vector length) • - 중간 출현 빈도 벡터 길이(median tv-vector length) • - 긴 출현 빈도 벡터 길이(long tv-vector length) • 다루는 주제의 수에 따른 문서 분류 • - 단일 주제 (single topic) • - 다중 주제 (multiple topic)

  9. 10-3 색인어 가중치 산출 기법 분석 • 색인어 가중치 산출 기법의 특성 • 출현 빈도 벡터 길이 정규화 기법 • d4 = { (t1,1), (t2,1), (t3,1), (t4,1), … , (tn, 1) } • d5 = { (t1,2), (t2,2), (t3,2), (t4,2), … , (tn, 2) } • - 출현 빈도 벡터길이 미포함 가중치 기법 : lnn(ln tf+1.0) • d4.lnn = { (t1,1), (t2,1), (t3,1), (t4,1), … , (tn, 1) } • d5.lnn = { (t1,1.69), (t2,1.69), (t3,1.69), (t4,1.69), … , (tn, 1.69) } • → 같은 색인어를 포함한 질의에 대한 유사도 계산 결과는 • d5가 d4에 비해 1.69배의 유사도를 갖는다 • → 출현 빈도 벡터 길이를 고려할 때 문서에서의 유사한 중요도를 갖고 • 있지만(거의 동일 문서) d5문서가 상위 문서로 결정 될 수 있다

  10. 10-3 색인어 가중치 산출 기법 분석 • 출현 빈도 벡터 길이 정규화 기법 • 일반적으로 모든 문서를 동등하게 취급되어야 함 • - 출현 빈도 벡터길이 정규화(코사인 정규화) : • d4.lnc • d5.lnc • 장점 • - 코사인 정규화 요소를 포함하지 않은 기법보다 높은 검색 효과 제공 • 단점 • - 다중 주제를 다루는 문서의 검색에 대한 효과 저하

  11. 10-3 색인어 가중치 산출 기법 분석 • 여러가지 주제를 다루는 문서 • 문서 d4는 단일 주제, d5는 d4의 주제를 포함한 여러가지 다중 주제 • lnc(코사인 정규화) 기법 적용 • 유사도 계산( q2 = { (t1,w1), …, (tm,wm), (tm+1,0), …, (tn,0) } ) • → n>m이므로 d4에 높은 순위를 부여 • 같은 양의 정보를 포함한 문서이므로 올바르지 않은 결과

  12. 10-3 색인어 가중치 산출 기법 분석 • 최대 출현 빈도 정규화 • 특정 경우 적용 • ann(0.5 + 0.5*tf/maxtf) 기법 적용 • → 동일한 벡터로 표현 • 다음 경우 적용 불가 • - ann 적용 - 색인어 가중치 산출 기법(lnc) 적용 • → 색인어 t1만이 다른 거의 동일한 문서지만 d8이 높은 순위를 받음

  13. 10-3 색인어 가중치 산출 기법 분석 • 색인어 가중치 산출 기법 분류 • 1. 코사인 정규화를 수행하는 가중치 기법 • 2. 최대 정규화를 수행하고 코사인 정규화를 실행하지 않는 기법 • 3. 코사인 정규화와 최대 정규화를 모두 수행하지 않는 기법 • - 색인어 가중치 산출 기법에 따라 다른 형태의 문서 검색

More Related