260 likes | 424 Views
서정연교수 Office: 공학관 816 Tel: 705-8488 Email: seojy@sogang.ac.kr. Information Retrieval (Chapter 4: 질의언어 ). 키워드 기반 질의. 가장 간단하다 . 키워드와 몇 가지 연산으로 구성된다 . 키워드가 포함된 문서를 검색한다 . 널리 사용된다 . ( 이유 ) 직관적이다 . 쉽게 표현할 수 있다 . 순위화가 쉽다 . 종류 단일 단어 질의 (single-word queries)
E N D
서정연교수 Office: 공학관 816 Tel: 705-8488 Email: seojy@sogang.ac.kr Information Retrieval(Chapter 4: 질의언어)
키워드 기반 질의 • 가장 간단하다. • 키워드와 몇 가지 연산으로 구성된다. • 키워드가 포함된 문서를 검색한다. • 널리 사용된다. (이유) • 직관적이다. • 쉽게 표현할 수 있다. • 순위화가 쉽다. • 종류 • 단일 단어 질의(single-word queries) • 문맥 질의(context queries) • 불리안 질의(Boolean queries) • 자연어 질의(natural language)
단일 단어 질의 • 가정: • 텍스트는 단어의 나열이다. • 단어는 분리자(separators)를 경계로 된 문자의 나열이다. • 분리자: • 공백(white space), 쉼표(comma) • 하이픈(hyphen) : on-line (?), off-line (?) • 단어 질의의 결과 • 질의에 있는 단어가 적어도 하나라도 포함된 문서의 집합 • 질의와 유사도에 따라서 검색된 문서를 순위화한다. • 사용자 인터페이스 • 문서에서 질의에 포함된 단어의 정확한 위치를 표시한다.
문맥 질의 • 주어진 문맥(근접한 다른 단어)내에서 단어를 검색한다. • 문맥 질의의 종류 • 구(phrase) 문맥 질의 • 연속적인 단일단어의 나열로 질의를 표현한다. • 문서에서 분리자가 질의에서 분리자와 정확히 같을 필요가 없다. • 예) query : "enhance retrieval" text : "enhance the retrieval", "enhance retrieval" • 근접(proximity) 문맥 질의 • 단어가 함께 사용될 수 있는 범위를 지정하는 질의 • 범위 : • 절(paragraph) • 단어와 단어 사이의 최대 거리 • 예) within 4 words : query : "enhance retrieval" text : "...enhance the power of retrieval …" • 질의에서 표현된 순서와 같은 순서로 텍스트에 표현될 필요는 없다. • 단일단어 질의와 비슷한 방법으로 순위화할 수 있다.
AND OR translation syntax syntactic 불리안 질의 • 간단한 문법으로 구성된다. • 단어(atom) (i.e 기본 질의) • 불리안 연산자 : • e1 OR e2, • e1 AND e2 • e1 BUT e2 : e1 AND NOT e2, • 질의 구문 트리(query syntax tree) • 리프노드: 단어 • 내부 노드: 불리안 연산자 • 질의의 결과 • 특별한 기준에 따라서 검색된 문서를 순위화한다. • 문서에서 질의에 포함된 단어의 정확한 위치를 표시한다. • 퍼지 불리안 질의 : some (between AND and OR)
자연어 질의 • 문장으로 표현 • 자연어 질의는 검색 시스템에 의해서 불리안 질의와 같은 형식으로 표현하여 검색한다.
Good Retrieval (세계에서 제일 높은 산) • Untitled Document (정확도 : 99 %) 세계에서 가장 높은 산은 어느 것일까요? 해 면 아래와 위를 합쳐서 가장 높은 산은 미국의 하와이 섬에 있는 '마우나케아'입니다. 이 산은 해발 4,205미터이고, 해면 아래는 4,877미터입니다. 마우나케아 산의 전체 높이는 9,000 미터를 넘기 때문에 세계에서 가장높은 산이라http://www.tgedu.net/student/cho_ja/html/5000/5111-10.html • 세 계 의 명 산 (정확도 : 97 %)산8000m급 14개 봉중의 (10위봉) 노아 방주가 내려앉은 산 8000m급 14개 봉중의 (12위봉) 사각형의 분화구를 이룬 사화산 칠레에서 가장 아름다운 산8000m급 14개 봉중의 (8위봉) 돌로미테 지역의 산 러시아에서 가장 높은 산 뉴질랜드에서 가장 높은 산세계에서 가장 높은http://www.kuac.net/txt/d_02.htm
Bad Retrieval (세계에서 제일 높은 산) • WWW Home page of 이남희(Lee Nam Hee) (정확도 : 88 %)세계에서 제일 높은 기차역 -융프라우 산 위에서 내려다 본 스위스 마을ttp://salmosa.kaist.ac.kr/~nhlee/Europe/europe20.html • 그림대여시스템/판화세계 (정확도 : 77 %)태생의 현존 작가. 현재 미국 산 앤토니오에서 작품활동하고 있다. 강렬한 화면 구성과 기법으로 화면 가득히 역동감이 넘친다. 뉴욕 프랫트 인스티튜트에서 공부하였으며 미국은 물론 유럽에서도 높은 평가를 받고 있다. 판화세계 전화 : (02)6060-919 / H.P : 011-9778-0919 http://www.artrental.co.kr/alireza.htm • PAXNet 뉴스센터 (정확도 : 77 %)산 맥주잔과 향기초세트, 이집트산 향수병, 우루과이산 돌반지, 태국산 향초 등 각국의 유명 특산품들이 한자리에 모였다. 세계풍물기행 벼룩시장전은 시중가보다 평균 30% 정도 할인된 가격에서 입찰이 시작하는 특가경매 형태로 진행된다. 경매 종료시점까지 가장 높은 가격을 http://www.paxnet.co.kr/news/datacenter/200011/29/20001129100828_06.sht
패턴 정합 • 패턴 : 텍스트에서 출현되는 구문적 특징들의 집합 • 패턴의 종류 • 단어 : "compute" • 접두사 :"comput“ : "computer", "computation", ... • 접미사 : "ters" : "computers", "testers", "painters" ... • 부분문자열 : • "tal" : "coastal", "talk", “metallic" … ; • "any flowers" : "many flowers" • 범위 : 사전 순서로 두 문자열 사이에 있는 어떤 문자열과도 정합 • "held..hold" : "hoax" “hissing” • 허용 오류 : • 철자 오류도 검색된다. • Levenshtein 거리(편집 거리) 이용: • 두 문자열을 같게 만들기 위한 문자 삽입, 삭제, 치환의 최소 수 • "flower" : "flo wer" • 정규표현 : "word|phrase", "pro(blem|tein)(s|)(0|1|2)*" • 확장된 패턴 : 간단한 문법을 가진 정규표현 • 내부적으로는 정규표현을 변환한다.
- - - - - • - - - - - - User Query (general) Document List collection User Query (specific) • - - - - - - • - - - - - - - Answers 질의응답 시스템 • Question Answering • Finding the exact answer to the user’s question in a large text collection • The main difference between IR and QA • IR system : • QA system :
질문에 대한 정답추천 관련 홈페이지 직접 연결 질의응답 시스템
질문에 대한 정답추천 관련 홈페이지 직접 연결 질의응답 시스템
Search engine vs. Q/A engine • 종합봉사실 전화번호는? IR system QA system
Search engine vs. Q/A engine As – Is (기존의 검색 시스템) To – Be (질의 응답 시스템) • 기능 측면에서의 질의 응답 결과 • 1. 해당되는 문서를 단순 나열함. • 2. 문서 속에서 정답 검색이 여전히 필요. • 3. 정보 검색 과정에 많은 시간 소요. • 4. 사용자의 문서 활용도가 매우 낮음. • 정확도 측면에서의 질의 응답 결과 • 1. 질문에서 키워드만을 추출. • 2. 키워드에 대한 통계적 검색 결과만 제시. • 3. 정확한 의도 분석이 불가능. • 기능 측면에서의 질의 응답 결과 • 1. 문서에서 정답을 직접 찾아서 제시. • 2. 정답 검색 과정 시간 단축. • 3. 사용자 문서 활용도 증가 인지도 향상. • 4. 웹 문서뿐 아니라 데이터베이스까지 검색 • 5. 특정 문서 직접 제시 가능 • 정확도 측면에서의 질의 응답 결과 • 1. 질문의 어휘 구조, 질문 의도까지 파악. • 2. 정확한 질의 분석 의미있는 부분만 검색. • 3. 검색 성능 최적화 가능. • 질문 :“서정연 교수님의 전화번호는?” • 1. 서정연+교수+전화+번호 • 문서 내에서 단순히 발현되는 정도 측정. • “서정연”, “교수”, “전화”, “번호” , “전화번호” • 라는 단어가 들어간 불필요한 모든 문서들을 • 제시 • 질문 : “서정연 교수님의 전화번호는?” • 1. 전화번호에 관한 질문(서정연 교수) • 우선 전화번호에 관한 질문이라는 것이 파악 • 되고, 그 대상이 서정연 교수라는 것을 인식 • 하여 정답 추출 웹사이트를 위한 지능형 정보 검색 에이전트. 사용자 질의 의도를 정확하게 파악하여 정확도를 최대로 높이는 진정한 의미의 Vertical 검색엔진.
양식 형태의 구조 하이퍼텍스트 구조 계층적 구조 구조 질의 • 텍스트 구조
고정 구조 • 문서는 양식과 같이 필드의 집합으로 구성된다. • 필드는 텍스트이다. • 중첩(nested)되거나 중복(overlap)되지 않는다. • 예) 메일 : 보내는 사람, 받는 사람, 날짜, 주제, 본문 • 질의 :주제에 “football”이 들어 있고 "Cliton"에게 보낸 메일을 찾아라. • HTML 문서와 같은 계층구조(hierarchical structure)로 된 문서의 검색표현으로는 부적합하다. • 데이터베이스의 관계형 모델에 적용할 수 있다. • 필드 : DB의 필드에 해당한다. • 구조질의언어(SQL, structured query language)를 확장하여 전문검색이 가능하게 할 수 있다. SFQL (structured full-text query language)
하이퍼텍스트 • 방향성 그래프로 간주된다. • 노드 : 텍스트 • 링크 : 노드 사이를 연결 혹은 노드 내 어떤 위치 사이에 존재하는 연결 • 검색 • 하이퍼텍스트의 항해 • 원하는 문서를 찾기 위해서 링크를 따라 노드를 따라간다. • WebGlimpse: 웹에서 브라우징과 검색을 결합하기 위한 시도 • 웹 네비게이션 + 현재 노드(text)와 연결된 노드들(texts)의 검색 기능 • 현재 하이퍼텍스트의 내용과 구조를 병합해서 검색하려는 시도가 이루어지고 있으나 많은 어려움이 있는 작업임.
Chapter 4 4.1 Introduction We cover in this chapter the different kinds of … …. 4.4 Structural Query ... chapter in with figure section section section with title title title title "structural" Introduction We cover …. ….. Structural … 계층 구조 • 하이퍼텍스트와 고정 구조가 중간 정도의 형태 • 장(chapter), 절(section)과 같이 나누어서 표현된 거의 모든 문서들 • 예) 서적,논문, 법률 문서, 구조화 프로그램 • 계층적 구조는 하이퍼텍스트보다 간단하기 때문에 질의 처리가 빠르다. parsed query to retrieve the figure 서적의 페이지 Schematic view
계층 구조(계속) • 계층 모델 • PAT 표현 • 겹침(overlapped) 리스트 • 참조 리스트 • 인접 노드 • 트리 정합
질의 프로트콜 • 텍스트 DB를 검색하기 위한 표준. • 종류 • Z39.50; • 1995년 ANSI와 NISO에서 표준으로 인정 • 클라이언트와 호스트 데이터베이스 관리기 사이의 표준 인터페이스 • 서버와 클라이언트가 세션을 연결하는 방법, • 초기에는 서지 정보에 위주였으나, 점차 다른 형태의 정보도 검색할 수 있도록 확장. • WAIS: Wide Area Information Service(광역 정보 서비스) • 1990년대 초반 웹이 유행하기 전에 많이 사용되던 프로토콜 • WAIS의 목표는 네트워크 출판 프로토콜과 인터넷을 통하여 데이터베이스를 검색 • CD-ROM 프로트콜 • 종류 • CCL (common command language) • CD-RDx (compact disk read only data exchange) • SFQL (structured full-text query language)