1 / 22

문헌과 질의 형태

문헌과 질의 형태. 문헌의 개념 데이터 구조의 개괄 문헌대리자 혹은 대체물 어휘 통제 데이터의 정형구조 데이터 압축 텍스트 형태의 문헌 이미지와 소리. 문헌의 개념 (1). 문헌 = 축적된 데이터의 기록 인쇄된 종이 , 편지 , 메시지 , 프로그램 , 데이터파일 , 전자우편 , 이미지 , 모든 종류의 도해 , 음성 녹음까지도 포함 질의와 문헌의 관계 ( 질의는 문헌인가 ?) 질의를 문헌으로 취급하느냐에 따라 검색 과정의 모델이 달라짐 . 문헌인 경우

erin-hudson
Download Presentation

문헌과 질의 형태

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 문헌과 질의 형태 • 문헌의 개념 • 데이터 구조의 개괄 • 문헌대리자 혹은 대체물 • 어휘 통제 • 데이터의 정형구조 • 데이터 압축 • 텍스트 형태의 문헌 • 이미지와 소리

  2. 문헌의 개념(1) • 문헌 = 축적된 데이터의 기록 • 인쇄된 종이, 편지, 메시지, 프로그램, 데이터파일, 전자우편, 이미지 , 모든 종류의 도해, 음성 녹음까지도 포함 • 질의와 문헌의 관계(질의는 문헌인가?) • 질의를 문헌으로 취급하느냐에 따라 검색 과정의 모델이 달라짐. • 문헌인 경우 • 검색은 한 문헌을 그에 부합하는 다른 문헌에 매칭시키는 과정이 됨 • 문헌이 아닌 경우 • 검색과정은 문헌을 질의로 매핑하고, 그 매핑에서 제시된 조건을 만족시키는 문헌들을 찾아내는 과정이 됨

  3. 문헌의 개념(2) • 문헌은 일정기간 동안 원형 복원될 수 있는 형태로 저장됨 • 임시로 작성한 문서는 검색 대상에서 제외 • 다양한 종류의 문헌을 정보검색에서 취급함 • 텍스트 -- 키워드, 문자열 등을 검색 • 그래픽 -- 이미지 매칭 • 소리 -- ??? • 다양한 매체에 대한 검색 기술이 필요

  4. 데이터 구조의 개괄(1) • 문헌의 전체적인 구조는 문헌의 저장 형식과 접속 양식에 영향을 끼침. • 완전히 규격화된 문헌 • 관계형, 네트워크형, 계층형 데이터베이스에서 발견되는 데이터가 해당 • 예정된 수의 필드로 구성되며, 예정된 크기와 위치를 가지고 있음. • 정확한 데이터 검색 가능. 특히, 일정 범위의 값에 해당하는 데이터 검색 성능 우수 • 양극단의 결과만 있음 • 전혀 규격화되지 않은 문헌 • 문헌들을 기록하는 과정에서 순서만이 유일한 구조인 문헌 • 데이터는 단지 입수되는 순서대로 기록 • 원격측정 데이터, 의료 감시 데이터, 음성과 이미지 데이터, 일부 문자 데이터가 해당. • 검색시 처음부터

  5. 데이터 구조의 개괄(2) • 반 규격화된 문헌 • 규격화 된 부분과 규격화 되지 않은 부분이 함께 존재 • HTML, XML 문서 등이 이러한 예 • 규격화된 부분을 먼저 검색한 다음, 비규격화된 내용에 대해 정제하여 검색 • 문서명, 저자, 원전, 초록 그 밖의 축약된 데이터 이용

  6. 문헌대리자 혹은 대체물(1) • 문헌대리자 (document surrogate) • 전체 문헌을 대표하는 제한된 표현 : 검색에 널리 사용 • 문헌 식별자 • 서명, 이름 (저자명, 단체명, 출판사명) • 중요 단어와 구절, 단락명(chapter 명, 서론, 요약, 참고 문헌 등의 제목) • 키워드 • 문헌의 내용을 표현하기 위해 저자나 편집자에 의해 선택되거나, 컴퓨터에 의해 자동적으로 선택된 단어들 • 초록 • 논문의 내용을 한 두 개의 짧은 문단으로 표현한 것

  7. 문헌대리자 혹은 대체물(2) • 추록 • 논문의 저자가 아닌 다른 사람에 의해 인위적으로 구성된 문헌대리자. • 리뷰 • 저자가 아닌 다른 사람에 의해 작성된 초록과 유사하나, 비평적이며 해당 분야의 다른 논문들과의 관계 속에서 논문의 가치를 평가함

  8. 어휘 통제 (Vocabulary Control) • 시스템을 설계할 때 특정 용어를 인식하도록 설계하고, 사용자들에게 탐색과정에서 이러한 용어를 사용하는 것 • 통제 어휘의 필요성 • 검색시스템에 일관성을 부여 • 탐색과 검색을 보다 효율적으로 만듦 • 통제 어휘에 대한 반론 • 이용자로 하여금 정보요구 표현자유를 박탈 • 정보요구에 부합되지 않는 문헌이 많을 수 있음

  9. 데이터의 정형 구조 • 초기 컴퓨터 시스템 • 펀치 카드에 사용될 수 있는 코딩에 기반을 둔 매우 제한된 문자 사용 • 높은 수준의 텍스트 처리 부적합 • 고 수준의 텍스트 처리를 위한 인코딩 시스템 개발 • EBCDIC, ASCII, ANSI, RTF(Rich Text Format) • KSC 5601, KSC 5657

  10. 데이터 압축(1) • 데이터 압축 • 필요성: 데이터 양의 증가로 탐색 시간이 길어짐 • 정보의 손실이 필연적임. • 압축기법 • 어간법(stemming) • 일련의 관련 단어들을 공통되는 어간의 형태로 변환하는 방법 • 스테머(stemmers) 사용: 반복적 접사 제거 방법 • 예: computer, computers, computing, computational -> 어간: comput • 중복 사용으로 인한 모음 제거법 • 예 : Ths sntnc cn b rd rthr qckly by mst ppl.

  11. 데이터 압축(2) • 압축시 고려사항 • 압축 수준: 문자수준 or 단어수준 • 문자수준의 장점: 처리될 문자가 비교적 적음 • 단어수준의 장점: 보다 빠르고 효과적인 압축 가능 • 데이터 모델의 유형 • 기본개념: 짧은 압축코드는 사용빈도가 높은 부호에 • 정적(static)모델: 텍스트 표본을 검토, 이 표본을 나타내는 통계표를 작성함으로써 만들어짐. • 적응(adaptive) 모델: 텍스트를 구성하는 부호들의 통계 분포를 미리 구축 후, 문자나 단어가 코딩 되면서 수정됨 • 반정적(semi-static) 모델: 두 유형의 절충 형태, 정적 모델을 사용하지만 대상 파일에 따라 모델이 재정의됨

  12. 데이터 압축(3) • 데이터 모델의 압축 효과 • 정적 모델: 빠른 압축과 해제 • 적응 모델: 고밀도의 압축 가능. 큰 파일에 효과적 • 텍스트 압축을 위한 코드 • 호프만 코드 • 최소한의 평균길이를 갖는 정적 모델 코드 • 코딩될 부호의 빈도 분포에 초점 • Ziv-Lempel 코드 • 적응모델 코드, 호프만 코드보다 큰 압축 효과 • 산술적 코드 • 적응모델 코드, 텍스트 스트림이 숫자에 의해 표현

  13. 데이터 압축 – 예제(호프만코드) • 아래의 표와 같이 10개의 문자들이 각각의 빈도를 갖는다고 가정할 때의 처리과정 • e와 h를 선택하여(빈도:2,3) 빈도5인 eh tree를 만들어라. • b와 d를 선택하여(빈도:4,5) 빈도9인 bd tree를 만들어라.

  14. 데이터 압축 – 예제(호프만코드) • 최종 결과로 만들어진 트리 • 노드의 왼편 가장자리에는 0의 값이, 오른쪽 가장자리에는 1의 값이 할당되었음 호프만 트리 호프만 코드

  15. 데이터 압축 – 예제(Ziv-Lempel 인코딩) • LZ77 • Gzip인코딩의 기초 • 세 요소 <a, b, c>로 구성된 쌍들의 집합으로 이루어짐 • a : 해석된 텍스트에서 얼마나 뒤로 돌아가야 하는가 • b : 얼마나 많은 문자들이 복사되어야 하는가 • c : 다음 텍스트부분을 완성하기 위해 추가되어야 할 새로운 문자 교재 41 페이지 참조 →

  16. 데이터 압축 – 예제(Ziv-Lempel 인코딩) • 각 쌍마다 인코드된 문자의 수 • 문자의 수는 반드시 압축이 이루어지기 전에 각 쌍마다 세문자 이상이 되어야 함 • 궁극적으로 호프만 코드보다 많은 데이터 압축을 가능케 함 ← 교재 42 페이지 참조

  17. 데이터 압축 – 예제(산술적 코딩) • 문자열 “abacus”를 코드화 하는 문제 • 다섯 개의 문자(a,b,c,s,u)를 처음에 0과 1사이의 간격을 1/5씩 할당 • 첫 번째 조우된 a의 간격은 [0.000…, 0.200…)으로 제한 • 이와 동시에 각 문자들의 빈도들이 다시 계산 • 한문자가 처리되었으므로, 처리된 문자의 간격 확장 • a는 제한된 간격의 2/6 점유, 다른 문자들은 1/6씩 배당 • 문자사이의 간격이 더욱 줄어들게 됨 • 해독 절차도 인코딩과 마찬가지로 간격을 좁히는 과정을 거침 • 산술적 코딩 압축은 작은 규모의 예에서는 분명치 않음 • 전형적인 데이터 파일에서 압축코드는 문자 당 2.5비트 정도가 된다.

  18. 데이터 압축 – 예제(산술적 코딩) • 인코딩이 진행되면서,첫번째 자릿수들은 점차 반복작업을 통해 고정 • 자릿수들은 마지막 스트링까지 이동되며, • 간격은 남아있는 자릿수에 대해 다시 배분 • 이로 인해 정확도를 높일필요성이 경감 교재 44 페이지 참조 →

  19. 텍스트 형태의 문헌 • 마크업 언어(mark-up language) • 텍스트 형태의 문헌을 해석하는데 좋음 • SGML: 문헌 내의 제목, 저자, 소제목, 문단, 구획, 비문자적 요소들의 위치를 식별 • 종이에 인쇄된 문헌 • 데이터베이스를 새로 구축하거나 확장할 때 컴퓨터 화상 입력됨 • OCR

  20. 이미지와 소리(1) • 문헌에 대한 정의를 내리고 처리하는데 점점 중요한 위치를 차지함 • 이미지, 소리기반 검색시스템은 단지 텍스트형태로 설명하는 상태임 • 이미지를 직접 사용하여 질의 및 검색 기술 개발 진행 • IBM의 QBIC(Query By Image Content) • 이미지 검색시스템의 개발을 촉진하는 것은 지리정보시스템

  21. 이미지와 소리(2) • 이미지 압축을 위한 표준 • 연속길이 인코딩 • CCITT : 이미지 스캔 라인을 검정과 흰색으로 나누어 픽셀의 수를 기록, 팩스 표준 • 문맥 인코딩: 연속 톤 이미지에 초점을 맞춤 • JBIG: 2단계 이미지 처리를 위해 개발, 그래이 스케일 이미지에도 사용. • JPEG: 연속 톤 이미지에 적용, 2단계 이미지 + 컬러 • MPEG: 멀티미디어 문헌에 적용, 이미지 + 소리 + 동영상 • 소리는 검색보다는 전송에 초점을 맞춰 메시지 수 증가를 위해 시간과 주파수 압축 방법을 사용 • MIDI : Musical Instrument Digital Interface

More Related