1 / 25

정보검색 테스트 컬렉션 HANTEC 구축 사례

정보검색 테스트 컬렉션 HANTEC 구축 사례. 2000 년 4 월 1 일 맹 성 현 충남대학교 정보통신공학부. Outline. HANTEC 구축 배경 HANTEC 이전 현황 ( 국내 , 국외 ) ‘98 년도 구축 결과 ‘ 99 년도 추진 결과 결론. 구축 배경. 목적 1998 년도에 구축된 HANTEC (Hangul TEst Collection) 정보검색 테스트 컬렉션의 품질 향상 및 규모 확장 필요성 정보검색시스템 신뢰도 (effectiveness) 평가의 표준화

danil
Download Presentation

정보검색 테스트 컬렉션 HANTEC 구축 사례

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 정보검색 테스트 컬렉션 HANTEC 구축 사례 2000년 4월 1일 맹 성 현 충남대학교 정보통신공학부

  2. Outline • HANTEC 구축 배경 • HANTEC 이전 현황 (국내, 국외) • ‘98년도 구축 결과 • ‘99년도 추진 결과 • 결론

  3. 구축 배경 • 목적 • 1998년도에 구축된 HANTEC (Hangul TEst Collection) 정보검색 테스트 컬렉션의 품질 향상 및 규모 확장 • 필요성 • 정보검색시스템 신뢰도(effectiveness) 평가의 표준화 • 관련 기술, 운용 시스템, 검색 서비스의 품질 향상 • 국제 수준의 컬렉션 개발을 통한 international community와의 협력

  4. HANTEC 이전 현황 • KT-SET 1.0 (1994) • 1,053건 문서 (학회 논문 초록) • 30개의 단순 질의 • KT-SET 2.0 (1996) • 4,414건 문서 (논문, 신문기사 포함) • 50개의 자연어 및 불리언 질의 • KRIST 컬렉션 (1995) • 13,315건 (과기처연구보고서 초록) • 30개 질의 (topic statements) • ETRI-Kyemong • 계몽사 백과사전 23,113건, 46개 질의, 76개 범주로 분류

  5. 외국 사례 (1) - 미국 • TREC Test Collection • 미국 NIST주관 + 정보검색분야 전문가 위원회 • 대규모 컬렉션 구축을 목표로 1991년부터 매년 컬렉션 규모 및 평가 분야 추가 • TREC-7 (1998): 총 1,634,243건 문서, 350 질의 • 매년 시스템 및 알고리즘 평가 결과 발표 • 평가 대상 종류 • ad-hoc vs. routing algorithms • English, Japanese, Spanish, (Chinese),German, French, Italian • Cross-language IR (English, French, German) • Filtering, High Precision, Interactive, SDR(Spoken Document Retrieval), VLC(Very Large Corpus) • 99년 Web Track 추가

  6. 외국 사례 (2) - 일본 • NACSIS test collection (일본) • 330,000문서 (65개 분야 학회논문 요약) • 100 개 질의 • 일어-영어 병행 코퍼스 대상 • 평가를 위한 conference 개최 (99.8) • BMIR-J1 & J2 (일본) • 600건 문서, 60개 질의 (J1) • 5080건 문서, 60개 질의 (J2) • Economics and engineering • Query categorization

  7. HANTEC (HANgul TEst Collection)-1998년도 구축 결과- • 문서: 12만건 (244MB) • 일반, 사회과학, 자연과학기술 각각 40,000건 • 문서 크기 (51byte - 360Kbyte/doc) • 질의: 30건 • TREC-6 형식 • 적합성 판정 • 5점 척도 • 1건 당 2인 판정

  8. 질의 … 검색기 1 검색기 2 검색기 n … 상위 200건 검색결과 상위 200건 검색결과 상위 200건 검색결과 문서당 적합성 판정 적합문서 후보 500건 생성 적합성 판정을 위한 pooling

  9. HANTEC 질의 예 <num> 01 <title> 월드컵 축구 유치 <desc> 한국의 2002년 월드컵 축구 유치 활동 내용 <narr> 한국의 2002년 월드컵 축구 유치를 위한 국내외 적인 활동이나 한국개최에 대한 회원국들의 반응 을 포함한 정보는? <quer> 2002년 월드컵 축구 피파 FIFA 회원국 한국 개최 주최 유치 전략 홍보 활동

  10. 분야별 문서집합 일반 사회 과학 과학 기술 한국 경제 신문: 39,480 과기처지원연구보고서: 10,000 한국 일보: 22,000 웹(gov): 9,000 여성 개발원 논문: 110 해외 과학기술 동향: 18,000 학술논문 서지사항: 12,000 경북 도의회 회의록: 410 웹(com): 9,000 HANTEC의 특징(1) • 문서의 다양성

  11. 일반종합 과학 기술 사회 과학 4 4 일반인 4 3 3 3 영역 전문가 3 중고등학생 3 3 HANTEC의 특징(2) • 질의 종류의 다양성 • 적합성 판정

  12. “HANTEC-98” 분석 (1) • Pool depth에 따른 평균 적합문서 분포도 2,3,4,5: relevant

  13. “HANTEC-98” 분석 (2) • 내용별 적합 문서의 분포도

  14. “HANTEC-98” 분석 (3) • 사용자별 적합 문서의 분포도 년

  15. 1999년도 구축 목표 • HANTEC 98 품질 향상 • 수정된 검색기로 새로운 검색 결과 생성 • 추가 문서의 적합성 판정 실시 • 추가 문서 5571건 => 추가 적합 문서 182건 • HANTEC의 확장 • 질의 20건 추가 • 각 질의에 대한 기존 문서 (12만건) 적합성 판정 • 일한 교차 언어 검색용 컬렉션으로 확장 • 한일 교차언어 검색용 컬렉션 구축 지원

  16. HANTEC 2.0 (1) • 목표: 자연과학기술 분야 질의를 총 30개로 확장 • 일본 NACSIS의 질의 사용 (science & engineering 분야) • 총 83개를 한글로 번역 • HANTEC 컬렉션과 관련 있는 질의 79개 선정 • 질의 20개 선정을 위한 작업 • 선정된 질의를 사용하여 일차 검색 • 검색 결과에 대한 일차 적합성 판정 • 적합성 문서 분포에 따른 최종 질의 선정

  17. HANTEC 2.0 (2)-후보 문서 생성 - • Pooling 방법 • 총 41개 run들로부터 상위 50개 문서 사용 • 중복 문서 제거 • 사용된 후보 문서 생성 시스템 • 충남대 검색기 (20 runs) • 색인 방법, 질의 구성 방법, relevance feedback (RF) 사용 여부 • KRISTAL II (2 runs) • P-norm사용, P-norm 사용+거리밀도 사용 • 숭실대 검색기 (18 runs) • Bigram혹은 형태소 단위 색인, 가중치 부여 방법, RF 사용 여부 • 다센21 (1 run)

  18. HANTEC 2.0 (3)- 적합성 판정 - • 대상: 각 질의 당 생성된 최종 후보문서 집합 • 8명의 평가자를 2인1조로 구성 • 각 질의 당 각 문서의 적합성을 2인이 판정 • 평가자 들간의 관점 차이 최소화 • 가평가 과정을 거쳐 적합성 판정 과정을 숙지 • 각 질의의 내용에 대한 사전 토의 -> 독립된 평가 • 평가자 간 3점 이상의 차이는 상호협의를 통해 조정 • 5점 척도 • 섬세한 평가 -> 평가자간의 양극화 현상 방지 • 시간이 많이 걸리는 단점

  19. HANTEC 2.0 (4)- 질의 별 적합문서 개수 -

  20. HANTEC 2.0 (5)- 유효성 평가 - • 문제점: 후보 문서만을 대상으로 적합성 평가 • 나머지 문서 중 적합한 문서가 존재할 가능성 • 재현율이 고평가 될 수 있는 가능성 • 새로운 시스템 평가가 불공정할 수 있음 • 평가 방안 • 1. 각 질의 별 pool depth를 가변적으로 증가 시키면서 새로운 적합문서의 출현 상황 관찰 • 2. 새로운 시스템으로부터 추가되는 적합 문서 개수 관찰 • 1번 방법 사용 • Pool깊이를 50까지 증가 시켜 가면서 추이 관찰

  21. HANTEC 2.0 (6)- Pool Depth에 따른 적합문서의 변화 추이도 -

  22. HANTEC 2.0 (7)- Pool Depth에 따른 적합문서의 변화 추이도 -

  23. HANTEC 2.0 (8)- Pool depth증가에 따른 추가 적합문서 수의 예측 -

  24. HANTEC 2.0 (9)- Pool depth증가에 따른 추가 적합문서 수의 예측 - 50이후 줄어들지 않는 질의 제외 (G2:10, L2:3)

  25. 결론 • 보다 객관적인 test collection을 위한 노력 • TREC과 같은 검색 시스템 및 알고리즘 평가회 필요 • 일본, 중국과의 협력 고려 • 규모의 확장 • Test collection종류의 확장 • 교차언어 검색, interactive IR, etc. • Filtering, Summarization, Categorization, etc. • 지속적인 지원 및 관심 필요 • 국가 기관 및 전문가의 협조 • 평가 체제 및 분위기 확산

More Related