정보검색 개요

정보검색개요 • 권혁철

과거 정보검색 • 도서관을 중심으로 문헌정보를 검색하는 과정에서 연구 • 정제된 문서 또는 전문가가 제공한 keywords 활용 • 고도 질의어 사용 • 일부 문헌정보 요약 정보를 검색하고 원문을 판매하는 형태로 상품화했으나, 대부분은 도서관에서 사용함으로써 시장에서 가치가 크지 않음 • 자료의 양이 많지 않음 • 코넬대학 중심 • Cosine measure 등 수학적 모형 사용 • Slaton이 중심으로 연구 • 언어분석의 중요성이 크지 않음

현재 정보검색 • 인터넷 정보과부하 • 홈페이지, Blog, … • 텍스트, 멀티미디어, … • 일반인이 사용 • 짧은 질의 • 고도검색기법에 대한 인식부족 • Relevance feedback, Boolean query … • 사용자 history 이용 등 • 정보화 사회의 길잡이로 상업적으로 성공 • 대용량 정보처리가 중심이므로 고도의 기법을 사용하지 않지만 서서히 정보과부하로 서서히 고도처리기법의 필요성이 대두함

일반 사용자 • 스스로 무엇을 어떻게 찾는지 모를 수 있음 • 사용자마다 다른 검색유형을 보임 • 꼭 필요한 정보만 몇 개 찾음 • 찾는 정보가 없으면 어떻게 다른 방법으로 찾을지 모름 • 감각적으로 느낌에 따라 찾음 • 주로 대중적으로 인기가 있는 내용을 찾지만, 때에 따라서는 전문적 분야를 찾는 등 검색 유형을 찾기 어려움

인터넷에서 일반영역 검색 • 현 언어처리 기술로는 인터넷에 있는 모든 문서를 분석하기는 불가능 • 언어처리 기술의 한계 • 분석속도 • 문서의 질 (철자오류, 다국어, 다양한 용어 …)  심지어 n-gram이 효과적이기도 함 • 더구나 사용자의 질의에 중의성이 많음 • ‘부산대학교’, ‘김민정’, … • 텍스트 문서뿐 아니라 멀티미디어 문서도 찾아야 함 • 멀티미디어문서 검색은 더욱 어려움

인터넷 문서특징 활용 • 링크, 사용자선호도 등 추가 정보를 활용하여 검색효율을 높일 수 있음 • 허브사이트(포털)와 영향력 있는 사이트 • 사용자가 검색 후 어느 문서를 선택하는지? • 어떤 질의가 요즘 많이 이루어지는지? • 각 문서에 대한 내용을 기계가 읽을 수 있는 형태로 요약한 파일 사용  시맨틱웹 • 실제 검색사이트에서 사용자에게 분류나 요약정보를 제공하는 방법 활용 • 태그 등 정보 활용 • HTML, XML • 분류정보, Trend 등 활용

검색이 상업적으로 성공 • Yahoo • 분류 정보를 활용한 검색 • Google • 효율적 검색만으로 성공 가능함을 보여줌 • 현재는 시장을 넓히고, MS에 도전 • Google earth • 오버추어 • Yahoo가 16.3억 달러로 인수 • 국내에서 영업 : keyword에 따라 월 수천 만원

구글신화 • ‘닷컴의 제왕’구글, 6년 만에 “시가총액29조원” 작년 순익 1억560만달러 (2004년 5월) • 얼마 전에는 구글이 주가 상승으로 인해 타임워너(790억$)를 누르고 세계에서 가장 시가총액 높은 미디어 회사로 등극했다는 뉴스가 나왔었다. 구글의 시가총액은 야후($490억)와 이베이를 합한 것보다도 높다.(2005년 7월, 845억$)  삼성전자 650억$ • 인터넷 검색엔진 구글이 최근 주가 상승으로 세계 100대 기업에 포함됐다고 영국 파이낸셜타임스(FT)가 3일 보도했다. FT는 2분기말 현재 FT글로벌 500지수에서 구글의 순위가 95위로 상승했다고 밝혔다. (2005년 7월 12일) • 이 요리사가 구글에서 받은 스톡옵션이 수백만불 이상이 되는 모양인데 (많은 실리콘밸리 벤처회사들은 비서나 요리사에게까지 스톡옵션을 준다고 한다), 이 돈으로 그는 부자로 은퇴하거나 아니면 구글을 나와서 커다란 식당을 차릴 계획이라고 한다

국내 • NHN은 2분기에 매출액 830억원, 영업이익 308억원을 기록했다고 3일 발표했다. • 페이지뷰의 기준으로는 시장점유율이 68%(4월 코리안클릭 집계)에 이르렀다. 검색광고 시장의 호황과 성공적인 해외 진출로 올 1분기에만 709억원의 매출과 244억의 당기순이익을 기록한 NHN은 시가총액 1조5000억원을 기록하고 있다 • 검색광고시장은 NHN의 앞길을 밝게 해주고 있다. 2002년 500억원 규모에 그쳤던 국내 검색광고 시장은 올해 3500억원으로 늘어나고 2007년에는 8000억원대로 커질 것으로 전망되고 있다.

미래는? • 누군가 검색분야에서는 새로운 아이디어를 낼 것이다. 그러나 방법론 자체가 아주 새롭지는 않을 것이다. • 인터넷에 기반한 틈새시장 확장으로 계속하여 포털의 가치는 높아질 것이다. • 아마 네이버를 비롯한 국내 포털이 지속하여 힘을 가지기는 쉽지 않을 것이다. • 인터넷에서 결국 MS와 Google이 경쟁할 것이다. • 운영체제 중심에서 인터넷 중심의 시스템이 될 것이다. • 검색은 점점 더 의미기반으로 바뀔 것이다.

Managing Gigabytes • 벌써 오래된 기술??? • 그리나 아주 기본적인 기술 • 어떤 검색시스템도 이 책과 Finding out about을 넘어가지는 않음 • 그러나 데이터 양은 terabytes, petabytes로 커지고 있다. • 문서도 이제 10억 건(이를 넘으면 의미가 없다고도 함)을 넘음  따라서 기본 교재로는 충분

내용 • 문서압축  현재는 검색에서는 큰 의미는 없으나 다른 쪽에서는 중요 • 멀티미디어 정보압축 등은 표준화 • 검색모형은 그대로 이용 • 역파일 압축 : 기술적으로 의미는 있으나 최근에는 압축을 잘 안 함 • Indexing, querying은 중요  Finding out about로 보완

Concordance • Locating words of Wordsworth’s poetry • 1136 pages  211,000 nontrivial words • Time consuming • Hand-made concordance • British National Corpus • Full-text retrieval

Full-text retrieval • TREC • Routing <-> filtering <-> clustering • Trend … • WWW • 구조화 정보 검색 • 무엇을 • 어떻게 • 왜

개념적인 배경 • 대용량 정보 처리의 목적 • 적은 비용으로 최대한 빨리 검색 • Full-text retrieval • 과거 : 수작업 • 많은 비용(인력, 시간) • 많은 오류 발생 • 현재 : 컴퓨터의 도입 • 적은 비용(인력, 시간) • 적은 오류 발생 • 언제나 문제점은 존재한다 !

왜 MG가 필요한가 ? • 저장공간 • Text data + Multimedia data • 엄청난 양의 저장 공간이 필요 • 검색속도 • 원하는 데이터의 빠른 검색 • 검색 결과의 정확성 • 이를 효율적으로 지원해주는 시스템의 요구

MG의 논점 • Compression과 Indexing의 조합 • Time과 Space의 문제 • 두 마리 토끼를 한꺼번에 잡자 ! • Image 등의 Multimedia data 처리 • Document DB = text + image • Image data의 처리가 더 어려움 • 더 많은 저장 공간의 요구 • 효율적인 색인 방법을 찾기가 어려움

Compression • 목적 • 저장공간의 절약 • 네트워크 상에서의 통신비용 절감 • 고려할 점 • Encoding, Decoding 비용 • Search와의 관계 • 보조 저장 장치에서의 I/O

Indexes • 목적 • 빠른 검색 • 고려할 점 • Search 방법(Data Structure) • Sorting • 저장 방법(compression, Storage)

무엇을 indexing하나? • How the information should be organized so that queries can be resolved and relevant portions of data located and extracted • Book, journals, catalogs for libraries, telephone directories, address, references, musical themes, genome sequences, …

어떻게 • Stop words (불용어) • ‘the’, ‘a’, ‘and’ <= 수십 개가 30% 차지 • 조사, 어미, 동사 ???  ‘조사의 용례???’ • Indexer could not predict what the researcher would want to find

Text & Image • 고려해야 할 문제들 • Textual image • Mixed text & image • 범용적인 표준 > 출력된 문서(종이, screen) • 다양한 문서의 저장 및 압축 방법 (lossy or lossless) • Text와 image data가 복합된 문서 처리 • 서로 다른 compression 기법 사용 • Data의 크기가 틀림

Scanned Image

이후 논의될 내용들 • Text & Image Compression • Indexing & Querying • Textual Images • Mixed text and image • Implementation • MG system

정보검색 개요

정보검색 개요

Presentation Transcript