1 / 25

정보검색 개요

정보검색 개요. 권혁철. 과거 정보검색. 도서관을 중심으로 문헌정보를 검색하는 과정에서 연구 정제된 문서 또는 전문가가 제공한 keywords 활용 고도 질의어 사용 일부 문헌정보 요약 정보를 검색하고 원문을 판매하는 형태로 상품화했으나 , 대부분은 도서관에서 사용함으로써 시장에서 가치가 크지 않음 자료의 양이 많지 않음 코넬대학 중심 Cosine measure 등 수학적 모형 사용 Slaton 이 중심으로 연구 언어분석의 중요성이 크지 않음. 현재 정보검색. 인터넷 정보과부하

helia
Download Presentation

정보검색 개요

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 정보검색개요 • 권혁철

  2. 과거 정보검색 • 도서관을 중심으로 문헌정보를 검색하는 과정에서 연구 • 정제된 문서 또는 전문가가 제공한 keywords 활용 • 고도 질의어 사용 • 일부 문헌정보 요약 정보를 검색하고 원문을 판매하는 형태로 상품화했으나, 대부분은 도서관에서 사용함으로써 시장에서 가치가 크지 않음 • 자료의 양이 많지 않음 • 코넬대학 중심 • Cosine measure 등 수학적 모형 사용 • Slaton이 중심으로 연구 • 언어분석의 중요성이 크지 않음

  3. 현재 정보검색 • 인터넷 정보과부하 • 홈페이지, Blog, … • 텍스트, 멀티미디어, … • 일반인이 사용 • 짧은 질의 • 고도검색기법에 대한 인식부족 • Relevance feedback, Boolean query … • 사용자 history 이용 등 • 정보화 사회의 길잡이로 상업적으로 성공 • 대용량 정보처리가 중심이므로 고도의 기법을 사용하지 않지만 서서히 정보과부하로 서서히 고도처리기법의 필요성이 대두함

  4. 일반 사용자 • 스스로 무엇을 어떻게 찾는지 모를 수 있음 • 사용자마다 다른 검색유형을 보임 • 꼭 필요한 정보만 몇 개 찾음 • 찾는 정보가 없으면 어떻게 다른 방법으로 찾을지 모름 • 감각적으로 느낌에 따라 찾음 • 주로 대중적으로 인기가 있는 내용을 찾지만, 때에 따라서는 전문적 분야를 찾는 등 검색 유형을 찾기 어려움

  5. 인터넷에서 일반영역 검색 • 현 언어처리 기술로는 인터넷에 있는 모든 문서를 분석하기는 불가능 • 언어처리 기술의 한계 • 분석속도 • 문서의 질 (철자오류, 다국어, 다양한 용어 …)  심지어 n-gram이 효과적이기도 함 • 더구나 사용자의 질의에 중의성이 많음 • ‘부산대학교’, ‘김민정’, … • 텍스트 문서뿐 아니라 멀티미디어 문서도 찾아야 함 • 멀티미디어문서 검색은 더욱 어려움

  6. 인터넷 문서특징 활용 • 링크, 사용자선호도 등 추가 정보를 활용하여 검색효율을 높일 수 있음 • 허브사이트(포털)와 영향력 있는 사이트 • 사용자가 검색 후 어느 문서를 선택하는지? • 어떤 질의가 요즘 많이 이루어지는지? • 각 문서에 대한 내용을 기계가 읽을 수 있는 형태로 요약한 파일 사용  시맨틱웹 • 실제 검색사이트에서 사용자에게 분류나 요약정보를 제공하는 방법 활용 • 태그 등 정보 활용 • HTML, XML • 분류정보, Trend 등 활용

  7. 검색이 상업적으로 성공 • Yahoo • 분류 정보를 활용한 검색 • Google • 효율적 검색만으로 성공 가능함을 보여줌 • 현재는 시장을 넓히고, MS에 도전 • Google earth • 오버추어 • Yahoo가 16.3억 달러로 인수 • 국내에서 영업 : keyword에 따라 월 수천 만원

  8. 구글신화 • ‘닷컴의 제왕’구글, 6년 만에 “시가총액29조원” 작년 순익 1억560만달러 (2004년 5월) • 얼마 전에는 구글이 주가 상승으로 인해 타임워너(790억$)를 누르고 세계에서 가장 시가총액 높은 미디어 회사로 등극했다는 뉴스가 나왔었다. 구글의 시가총액은 야후($490억)와 이베이를 합한 것보다도 높다.(2005년 7월, 845억$)  삼성전자 650억$ • 인터넷 검색엔진 구글이 최근 주가 상승으로 세계 100대 기업에 포함됐다고 영국 파이낸셜타임스(FT)가 3일 보도했다. FT는 2분기말 현재 FT글로벌 500지수에서 구글의 순위가 95위로 상승했다고 밝혔다. (2005년 7월 12일) • 이 요리사가 구글에서 받은 스톡옵션이 수백만불 이상이 되는 모양인데 (많은 실리콘밸리 벤처회사들은 비서나 요리사에게까지 스톡옵션을 준다고 한다), 이 돈으로 그는 부자로 은퇴하거나 아니면 구글을 나와서 커다란 식당을 차릴 계획이라고 한다

  9. 국내 • NHN은 2분기에 매출액 830억원, 영업이익 308억원을 기록했다고 3일 발표했다. • 페이지뷰의 기준으로는 시장점유율이 68%(4월 코리안클릭 집계)에 이르렀다. 검색광고 시장의 호황과 성공적인 해외 진출로 올 1분기에만 709억원의 매출과 244억의 당기순이익을 기록한 NHN은 시가총액 1조5000억원을 기록하고 있다 • 검색광고시장은 NHN의 앞길을 밝게 해주고 있다. 2002년 500억원 규모에 그쳤던 국내 검색광고 시장은 올해 3500억원으로 늘어나고 2007년에는 8000억원대로 커질 것으로 전망되고 있다.

  10. 미래는? • 누군가 검색분야에서는 새로운 아이디어를 낼 것이다. 그러나 방법론 자체가 아주 새롭지는 않을 것이다. • 인터넷에 기반한 틈새시장 확장으로 계속하여 포털의 가치는 높아질 것이다. • 아마 네이버를 비롯한 국내 포털이 지속하여 힘을 가지기는 쉽지 않을 것이다. • 인터넷에서 결국 MS와 Google이 경쟁할 것이다. • 운영체제 중심에서 인터넷 중심의 시스템이 될 것이다. • 검색은 점점 더 의미기반으로 바뀔 것이다.

  11. Managing Gigabytes • 벌써 오래된 기술??? • 그리나 아주 기본적인 기술 • 어떤 검색시스템도 이 책과 Finding out about을 넘어가지는 않음 • 그러나 데이터 양은 terabytes, petabytes로 커지고 있다. • 문서도 이제 10억 건(이를 넘으면 의미가 없다고도 함)을 넘음  따라서 기본 교재로는 충분

  12. 내용 • 문서압축  현재는 검색에서는 큰 의미는 없으나 다른 쪽에서는 중요 • 멀티미디어 정보압축 등은 표준화 • 검색모형은 그대로 이용 • 역파일 압축 : 기술적으로 의미는 있으나 최근에는 압축을 잘 안 함 • Indexing, querying은 중요  Finding out about로 보완

  13. Concordance • Locating words of Wordsworth’s poetry • 1136 pages  211,000 nontrivial words • Time consuming • Hand-made concordance • British National Corpus • Full-text retrieval

  14. Full-text retrieval • TREC • Routing <-> filtering <-> clustering • Trend … • WWW • 구조화 정보 검색 • 무엇을 • 어떻게 • 왜

  15. 개념적인 배경 • 대용량 정보 처리의 목적 • 적은 비용으로 최대한 빨리 검색 • Full-text retrieval • 과거 : 수작업 • 많은 비용(인력, 시간) • 많은 오류 발생 • 현재 : 컴퓨터의 도입 • 적은 비용(인력, 시간) • 적은 오류 발생 • 언제나 문제점은 존재한다 !

  16. 왜 MG가 필요한가 ? • 저장공간 • Text data + Multimedia data • 엄청난 양의 저장 공간이 필요 • 검색속도 • 원하는 데이터의 빠른 검색 • 검색 결과의 정확성 • 이를 효율적으로 지원해주는 시스템의 요구

  17. MG의 논점 • Compression과 Indexing의 조합 • Time과 Space의 문제 • 두 마리 토끼를 한꺼번에 잡자 ! • Image 등의 Multimedia data 처리 • Document DB = text + image • Image data의 처리가 더 어려움 • 더 많은 저장 공간의 요구 • 효율적인 색인 방법을 찾기가 어려움

  18. Compression • 목적 • 저장공간의 절약 • 네트워크 상에서의 통신비용 절감 • 고려할 점 • Encoding, Decoding 비용 • Search와의 관계 • 보조 저장 장치에서의 I/O

  19. Indexes • 목적 • 빠른 검색 • 고려할 점 • Search 방법(Data Structure) • Sorting • 저장 방법(compression, Storage)

  20. 무엇을 indexing하나? • How the information should be organized so that queries can be resolved and relevant portions of data located and extracted • Book, journals, catalogs for libraries, telephone directories, address, references, musical themes, genome sequences, …

  21. 어떻게 • Stop words (불용어) • ‘the’, ‘a’, ‘and’ <= 수십 개가 30% 차지 • 조사, 어미, 동사 ???  ‘조사의 용례???’ • Indexer could not predict what the researcher would want to find

  22. Text & Image • 고려해야 할 문제들 • Textual image • Mixed text & image • 범용적인 표준 > 출력된 문서(종이, screen) • 다양한 문서의 저장 및 압축 방법 (lossy or lossless) • Text와 image data가 복합된 문서 처리 • 서로 다른 compression 기법 사용 • Data의 크기가 틀림

  23. Scanned Image

  24. 이후 논의될 내용들 • Text & Image Compression • Indexing & Querying • Textual Images • Mixed text and image • Implementation • MG system

More Related