1장 소개

목 차 1.1 동기 1.2 기본 개념 1.3 과거, 현재와 미래 1.4 검색 과정 1.5 교재의 구성 1.6 교재의 사용 1.7 참고 문헌 고찰 1장 소개 Chapter 1

1.1 동기 • 정보검색 (Information Retrieval: IR) • 정보 항목들에 대한 표현, 저장, 조직, 접근 • 사용자가 관심 있는 정보에 대해 쉬운 접근을 제공 • 가상 사용자 정보 요구 예 • 다음과 같은 대학 테니스 팀에 대한 정보를 지니고 있는 모든 페이지(문헌)를 찾아라 • 미국 내 대학에서 운영되고 NCAA 테니스 토너먼트에 참가 • 단, 지난 3년간의 미국 내 순위와 • 팀 코치의 전자메일 또는 전화번호 포함 • IR 시스템의 중요 목표 • 해당 IR 시스템의 질의(query) 형태로 변환 • 사용자에게 유용하거나 연관될 지도 모르는 정보를 검색 Chapter 1

1.1.1 정보와 데이터 검색 • 데이터 검색 (Data Retrieval: DR) • 명확히 정의된 조건에서 모든 객체들을 검색 • 정규식이나 관계 대수 표현 • 잘 정의된 구조와 의미를 가진 데이터 • 관계형 데이터베이스 • 정보 검색 • 질의를 만족하는 데이터보다는 그 주제에 연관된 정보를 검색 • 자연언어 텍스트를 취급 • 잘 구조화되어 있지도 않으며, 의미적으로도 모호함 • 문헌 내용의 해석 • 문헌 텍스트로부터 구문/의미 정보를 추출하고, • 이 정보를 이용해 사용자 정보 요구와 정합 • 사용자 질의와의 연관도에 따라 순위를 매김 • 연관성(relevance) 인식이 정보 검색의 핵심 • IR 시스템의 주요 목표 • 사용자 질의와 연관된 모든 문헌을 검색 • 가능한 한 비연관 문헌을 줄임 Chapter 1

1.1.2 시대 중심에 위치한 정보 검색 • 정보 검색의 역사 • ’60-’70년대: 텍스트 색인과 유용한 문헌 탐색 도구 • ‘80년대 • 모델링, 문헌 분류 및 범주화, 시스템 구조, 사용자 인터페이스, 데이터 가시화, 여과, 언어 등을 포함 • 도서관 사서나 정보 전문가들만의 협소한 관심영역 • ‘90년대 • 월드 와이드 웹의 등장 • 전례없는 규모로 생각과 정보의 공유를 가능 • 인류 지식과 문화의 보편적인 저장소 • 모든 사람이 접할 수 있는 새로운 출판 매체 • 주요 장애물 • 웹을 위해 잘 정의된 데이터 모델의 부재 • 정보의 정의와 구조가 저수준 • 유망한 해결책으로 웹 검색 부각 Chapter 1

1.1.3 교재의 초점 • 정보 검색에 관한 전반적인 연구 성과 • 컴퓨터 과학 입장 • IR 시스템에서 사용되는 컴퓨터 알고리즘과 기술에 초점 • 인간중심으로 해석 • 도서관 사서나 정보과학 연구자의 관점 소개 • 정보검색과 관련된 다른 분야와 통합 • 기술: 텍스트/ 멀티미디어 검색, 사용자 인터페이스, 시각화 • 응용: 웹, 도서관 시스템, 디지털 도서관 Chapter 1

1.2 기본 개념 • 연관 정보의 효과적인 검색 요소 • 사용자 작업 • 검색시스템이 채택한 논리적 문헌 • 작업에 따른 사용자와 검색 시스템간의 상호작용 Chapter 1

1.2.1 사용자 작업 • 가져오기(pulling) 작업 • 정보와 데이터 검색 • 해당 시스템이 제공하는 질의언어로 변환 • IR : 정보 요구의 의미를 담고 있는 단어 집합 • DR : 정규식 • 전통적인 정보 검색 시스템 • 브라우징 • 시작시 목적이 명확하게 정의되어 있지 않고 사용 중에 목적이 바뀜 • 하이퍼텍스트 시스템 • 정보와 데이터 검색에 브라우징을 통합 • 아직 일반적이지 못하고 미래에나 가능 • 밀어넣기(push) 작업 • 사용자에게 유용한 정보를 주기적으로 추출하여 보내줌 • 정보 여과(filtering) Chapter 1

1.2.2 논리적 문헌 • 전문(full text) • 문헌에 포함된 모든 단어의 집합 • 가장 완벽한 형태의 논리적 문헌 • 높은 계산 비용을 수반 • 색인어나 키워드의 집합 • 문헌 텍스트로부터 직접 추출 • 대규모의 문헌 집합에서 대표 키워드 집합으로 축소 • 텍스트 작업(또는 변형) • 불용어(stopword ; 관사나 접속사와 같은) 제거 • 스테밍(stemming ; 문법적으로 공통인 어원으로 변환) • 명사 그룹(형용사, 부사, 동사 제거) 확인 • 압축 • 주제 색인자(정보과학 영역 전문가)에 의해 명기 • 작은 규모의 카테고리: 가장 간결한 형태의 논리적 문헌 • 낮은 수준의 검색 결과 Chapter 1

문헌의 논리적 상 전문에서 색인어 집합까지 Chapter 1

1.3 과거, 현재와 미래1.3.1초기 연구 • 검색하고 사용할 목적으로 정보를 조직화 • 책의 목차 • 색인 • 연관 정보에 대한 지시자 역할을 해주는 선택된 단어나 개념 목록 • 분류체계 • 도서관학(또는 문헌정보학) 분야의 전문가들에 의해 대부분이 고안 • 대규모 색인을 자동으로 구축하는 것이 가능해짐 • 정보 검색의 두 관점 • 컴퓨터 중심 • 효율적인 색인, 고성능의 사용자 질의 처리, 순위결정 알고리즘이 중요 • 인간 중심 • 사용자 행태 연구, 사용자 주요 요구의 이해와 함께 어떻게 이런 것들이 검색 시스템의 조직과 동작에 영향을 미치는가가 중요 Chapter 1

1.3.2 도서관에서의 정보 검색 • 1세대 시스템 • 카드 목록과 같은 이전의 기술들을 자동화하는 차원 • 저자나 제목으로 검색 가능 • 2세대 시스템 • 주제어나 키워드, 좀 더 복잡한 질의 처리 등의 향상된 탐색 기능들이 추가 • 3세대 시스템 • 향상된 그래픽 인터페이스, 전자 형태, 하이퍼텍스트 기능 및 개방형 시스템 구조 등에 초점 Chapter 1

1.3.3 웹과 디지털 도서관 • 컴퓨터 기술 발전과 웹에 의한 변화 • 저비용: 매우 저렴하게 다양한 정보원의 접근이 가능 • 접근의 용이: 수많은 네트워크에로의 신속한 접근이 가능 • 출판의 자유: 대규모 출판 매체에 자유로운 접근이 가능 • 웹(디지털 도서관) • 고수준의 상호작용(interactivity)이 가능한 매체 • 서비스 편의성 향상 • 해결해야 할 세 가지 중요 문제 • 동적 환경에서 양질의 검색을 제공 • 색인과 질의 응답 시간을 빠르게 제공 • 사용자 행태의 이해 • 새로운 정보 검색 전략의 설계와 전개에 영향 Chapter 1

1.3.4 실용적인 문제 • 보안과 사생활보호 • 전자상거래 보안상의 이유로 암호화나 자동 인증 형식을 제공 • 제3자에 의해 개인정보가 오용되는 것을 방어 • 저작권과 특허 • 웹상의 광범위한 데이터 유포와 저작권법이나 특허법과의 관계 • 대규모 디지털 도서관 설립과 전개 사업에 중요 • 기타 • 스캐닝 • 광학문자인식(OCR) • 교차 언어 검색(질의언어와 검색된 문헌의 언어가 상이한 경우) Chapter 1

1.4 검색 과정 Chapter 1

1.4 검색 과정(계속) • 텍스트 데이터베이스 정의(데이터베이스 관리자) • 사용될 문헌 • 텍스트에 수행될 명령어 • 텍스트 모델(검색 대상 요소로서의 텍스트 구조) • 텍스트 색인 생성 • 가장 결정적인 자료구조 • 대량의 데이터를 빠르게 검색 • 역파일(inverted file) 구조 Chapter 1

1.4 검색 과정(계속) • 검색 • 사용자의 요구를 명기 • 텍스트 명령어와 동일하게 분석되고 변형 • 질의 연산(query operation) 적용 • 색인구조에 의해 검색 • 연관 가능성(likelyhood)에 따라 순위화 • 사용자 피드백(user feedback) • 사용자의 관심에 정확히 부합되는 문헌들을 선택 • Go to 3 Chapter 1

1.5 교재의 구성 Chapter 1

1.5.2 교재의 구조 Chapter 1

1.7 참고 • 웹 페이지 • Brazil: http://www.dcc.ufmg.br/irbook • Chile: http://sunsite.dcc.uchile.cl/irbook • 정보 검색에 대한 주요 논문지 • Journal of the American Society of Information Sciences(JASIS) • ACM Transactions on Information Systems • Information Processing & Management(IP&M, Elsevier) • Information Systems(Elsevier) • Information Retrieval(Kluwer) • Knowledge and Information Systems(Springer) • 학술회의 • ACM SIGIR International Conference on Information Retrieval • ACM International Conference on Digital Libraries(ACM DL) • ACM Conference on Information Knowledge and Management(CIKM) • Text REtrieval Conference(TREC) • IRAL (International Workshop on Information Retrieval with Asian Languages) • 한글 및 한국어 정보처리 학술대회 Chapter 1

1장 소개

1장 소개

Presentation Transcript