250 likes | 468 Views
정보검색 테스트 컬렉션 HANTEC 구축 사례. 2000 년 4 월 1 일 맹 성 현 충남대학교 정보통신공학부. Outline. HANTEC 구축 배경 HANTEC 이전 현황 ( 국내 , 국외 ) ‘98 년도 구축 결과 ‘ 99 년도 추진 결과 결론. 구축 배경. 목적 1998 년도에 구축된 HANTEC (Hangul TEst Collection) 정보검색 테스트 컬렉션의 품질 향상 및 규모 확장 필요성 정보검색시스템 신뢰도 (effectiveness) 평가의 표준화
E N D
정보검색 테스트 컬렉션 HANTEC 구축 사례 2000년 4월 1일 맹 성 현 충남대학교 정보통신공학부
Outline • HANTEC 구축 배경 • HANTEC 이전 현황 (국내, 국외) • ‘98년도 구축 결과 • ‘99년도 추진 결과 • 결론
구축 배경 • 목적 • 1998년도에 구축된 HANTEC (Hangul TEst Collection) 정보검색 테스트 컬렉션의 품질 향상 및 규모 확장 • 필요성 • 정보검색시스템 신뢰도(effectiveness) 평가의 표준화 • 관련 기술, 운용 시스템, 검색 서비스의 품질 향상 • 국제 수준의 컬렉션 개발을 통한 international community와의 협력
HANTEC 이전 현황 • KT-SET 1.0 (1994) • 1,053건 문서 (학회 논문 초록) • 30개의 단순 질의 • KT-SET 2.0 (1996) • 4,414건 문서 (논문, 신문기사 포함) • 50개의 자연어 및 불리언 질의 • KRIST 컬렉션 (1995) • 13,315건 (과기처연구보고서 초록) • 30개 질의 (topic statements) • ETRI-Kyemong • 계몽사 백과사전 23,113건, 46개 질의, 76개 범주로 분류
외국 사례 (1) - 미국 • TREC Test Collection • 미국 NIST주관 + 정보검색분야 전문가 위원회 • 대규모 컬렉션 구축을 목표로 1991년부터 매년 컬렉션 규모 및 평가 분야 추가 • TREC-7 (1998): 총 1,634,243건 문서, 350 질의 • 매년 시스템 및 알고리즘 평가 결과 발표 • 평가 대상 종류 • ad-hoc vs. routing algorithms • English, Japanese, Spanish, (Chinese),German, French, Italian • Cross-language IR (English, French, German) • Filtering, High Precision, Interactive, SDR(Spoken Document Retrieval), VLC(Very Large Corpus) • 99년 Web Track 추가
외국 사례 (2) - 일본 • NACSIS test collection (일본) • 330,000문서 (65개 분야 학회논문 요약) • 100 개 질의 • 일어-영어 병행 코퍼스 대상 • 평가를 위한 conference 개최 (99.8) • BMIR-J1 & J2 (일본) • 600건 문서, 60개 질의 (J1) • 5080건 문서, 60개 질의 (J2) • Economics and engineering • Query categorization
HANTEC (HANgul TEst Collection)-1998년도 구축 결과- • 문서: 12만건 (244MB) • 일반, 사회과학, 자연과학기술 각각 40,000건 • 문서 크기 (51byte - 360Kbyte/doc) • 질의: 30건 • TREC-6 형식 • 적합성 판정 • 5점 척도 • 1건 당 2인 판정
질의 … 검색기 1 검색기 2 검색기 n … 상위 200건 검색결과 상위 200건 검색결과 상위 200건 검색결과 문서당 적합성 판정 적합문서 후보 500건 생성 적합성 판정을 위한 pooling
HANTEC 질의 예 <num> 01 <title> 월드컵 축구 유치 <desc> 한국의 2002년 월드컵 축구 유치 활동 내용 <narr> 한국의 2002년 월드컵 축구 유치를 위한 국내외 적인 활동이나 한국개최에 대한 회원국들의 반응 을 포함한 정보는? <quer> 2002년 월드컵 축구 피파 FIFA 회원국 한국 개최 주최 유치 전략 홍보 활동
분야별 문서집합 일반 사회 과학 과학 기술 한국 경제 신문: 39,480 과기처지원연구보고서: 10,000 한국 일보: 22,000 웹(gov): 9,000 여성 개발원 논문: 110 해외 과학기술 동향: 18,000 학술논문 서지사항: 12,000 경북 도의회 회의록: 410 웹(com): 9,000 HANTEC의 특징(1) • 문서의 다양성
일반종합 과학 기술 사회 과학 4 4 일반인 4 3 3 3 영역 전문가 3 중고등학생 3 3 HANTEC의 특징(2) • 질의 종류의 다양성 • 적합성 판정
“HANTEC-98” 분석 (1) • Pool depth에 따른 평균 적합문서 분포도 2,3,4,5: relevant
“HANTEC-98” 분석 (2) • 내용별 적합 문서의 분포도
“HANTEC-98” 분석 (3) • 사용자별 적합 문서의 분포도 년
1999년도 구축 목표 • HANTEC 98 품질 향상 • 수정된 검색기로 새로운 검색 결과 생성 • 추가 문서의 적합성 판정 실시 • 추가 문서 5571건 => 추가 적합 문서 182건 • HANTEC의 확장 • 질의 20건 추가 • 각 질의에 대한 기존 문서 (12만건) 적합성 판정 • 일한 교차 언어 검색용 컬렉션으로 확장 • 한일 교차언어 검색용 컬렉션 구축 지원
HANTEC 2.0 (1) • 목표: 자연과학기술 분야 질의를 총 30개로 확장 • 일본 NACSIS의 질의 사용 (science & engineering 분야) • 총 83개를 한글로 번역 • HANTEC 컬렉션과 관련 있는 질의 79개 선정 • 질의 20개 선정을 위한 작업 • 선정된 질의를 사용하여 일차 검색 • 검색 결과에 대한 일차 적합성 판정 • 적합성 문서 분포에 따른 최종 질의 선정
HANTEC 2.0 (2)-후보 문서 생성 - • Pooling 방법 • 총 41개 run들로부터 상위 50개 문서 사용 • 중복 문서 제거 • 사용된 후보 문서 생성 시스템 • 충남대 검색기 (20 runs) • 색인 방법, 질의 구성 방법, relevance feedback (RF) 사용 여부 • KRISTAL II (2 runs) • P-norm사용, P-norm 사용+거리밀도 사용 • 숭실대 검색기 (18 runs) • Bigram혹은 형태소 단위 색인, 가중치 부여 방법, RF 사용 여부 • 다센21 (1 run)
HANTEC 2.0 (3)- 적합성 판정 - • 대상: 각 질의 당 생성된 최종 후보문서 집합 • 8명의 평가자를 2인1조로 구성 • 각 질의 당 각 문서의 적합성을 2인이 판정 • 평가자 들간의 관점 차이 최소화 • 가평가 과정을 거쳐 적합성 판정 과정을 숙지 • 각 질의의 내용에 대한 사전 토의 -> 독립된 평가 • 평가자 간 3점 이상의 차이는 상호협의를 통해 조정 • 5점 척도 • 섬세한 평가 -> 평가자간의 양극화 현상 방지 • 시간이 많이 걸리는 단점
HANTEC 2.0 (5)- 유효성 평가 - • 문제점: 후보 문서만을 대상으로 적합성 평가 • 나머지 문서 중 적합한 문서가 존재할 가능성 • 재현율이 고평가 될 수 있는 가능성 • 새로운 시스템 평가가 불공정할 수 있음 • 평가 방안 • 1. 각 질의 별 pool depth를 가변적으로 증가 시키면서 새로운 적합문서의 출현 상황 관찰 • 2. 새로운 시스템으로부터 추가되는 적합 문서 개수 관찰 • 1번 방법 사용 • Pool깊이를 50까지 증가 시켜 가면서 추이 관찰
HANTEC 2.0 (8)- Pool depth증가에 따른 추가 적합문서 수의 예측 -
HANTEC 2.0 (9)- Pool depth증가에 따른 추가 적합문서 수의 예측 - 50이후 줄어들지 않는 질의 제외 (G2:10, L2:3)
결론 • 보다 객관적인 test collection을 위한 노력 • TREC과 같은 검색 시스템 및 알고리즘 평가회 필요 • 일본, 중국과의 협력 고려 • 규모의 확장 • Test collection종류의 확장 • 교차언어 검색, interactive IR, etc. • Filtering, Summarization, Categorization, etc. • 지속적인 지원 및 관심 필요 • 국가 기관 및 전문가의 협조 • 평가 체제 및 분위기 확산