문헌과 질의 형태

문헌과 질의 형태 • 문헌의 개념 • 데이터 구조의 개괄 • 문헌대리자 혹은 대체물 • 어휘 통제 • 데이터의 정형구조 • 데이터 압축 • 텍스트 형태의 문헌 • 이미지와 소리

문헌의 개념(1) • 문헌 = 축적된 데이터의 기록 • 인쇄된 종이, 편지, 메시지, 프로그램, 데이터파일, 전자우편, 이미지 , 모든 종류의 도해, 음성 녹음까지도 포함 • 질의와 문헌의 관계(질의는 문헌인가?) • 질의를 문헌으로 취급하느냐에 따라 검색 과정의 모델이 달라짐. • 문헌인 경우 • 검색은 한 문헌을 그에 부합하는 다른 문헌에 매칭시키는 과정이 됨 • 문헌이 아닌 경우 • 검색과정은 문헌을 질의로 매핑하고, 그 매핑에서 제시된 조건을 만족시키는 문헌들을 찾아내는 과정이 됨

문헌의 개념(2) • 문헌은 일정기간 동안 원형 복원될 수 있는 형태로 저장됨 • 임시로 작성한 문서는 검색 대상에서 제외 • 다양한 종류의 문헌을 정보검색에서 취급함 • 텍스트 -- 키워드, 문자열 등을 검색 • 그래픽 -- 이미지 매칭 • 소리 -- ??? • 다양한 매체에 대한 검색 기술이 필요

데이터 구조의 개괄(1) • 문헌의 전체적인 구조는 문헌의 저장 형식과 접속 양식에 영향을 끼침. • 완전히 규격화된 문헌 • 관계형, 네트워크형, 계층형 데이터베이스에서 발견되는 데이터가 해당 • 예정된 수의 필드로 구성되며, 예정된 크기와 위치를 가지고 있음. • 정확한 데이터 검색 가능. 특히, 일정 범위의 값에 해당하는 데이터 검색 성능 우수 • 양극단의 결과만 있음 • 전혀 규격화되지 않은 문헌 • 문헌들을 기록하는 과정에서 순서만이 유일한 구조인 문헌 • 데이터는 단지 입수되는 순서대로 기록 • 원격측정 데이터, 의료 감시 데이터, 음성과 이미지 데이터, 일부 문자 데이터가 해당. • 검색시 처음부터

데이터 구조의 개괄(2) • 반 규격화된 문헌 • 규격화 된 부분과 규격화 되지 않은 부분이 함께 존재 • HTML, XML 문서 등이 이러한 예 • 규격화된 부분을 먼저 검색한 다음, 비규격화된 내용에 대해 정제하여 검색 • 문서명, 저자, 원전, 초록 그 밖의 축약된 데이터 이용

문헌대리자 혹은 대체물(1) • 문헌대리자 (document surrogate) • 전체 문헌을 대표하는 제한된 표현 : 검색에 널리 사용 • 문헌 식별자 • 서명, 이름 (저자명, 단체명, 출판사명) • 중요 단어와 구절, 단락명(chapter 명, 서론, 요약, 참고 문헌 등의 제목) • 키워드 • 문헌의 내용을 표현하기 위해 저자나 편집자에 의해 선택되거나, 컴퓨터에 의해 자동적으로 선택된 단어들 • 초록 • 논문의 내용을 한 두 개의 짧은 문단으로 표현한 것

문헌대리자 혹은 대체물(2) • 추록 • 논문의 저자가 아닌 다른 사람에 의해 인위적으로 구성된 문헌대리자. • 리뷰 • 저자가 아닌 다른 사람에 의해 작성된 초록과 유사하나, 비평적이며 해당 분야의 다른 논문들과의 관계 속에서 논문의 가치를 평가함

어휘 통제 (Vocabulary Control) • 시스템을 설계할 때 특정 용어를 인식하도록 설계하고, 사용자들에게 탐색과정에서 이러한 용어를 사용하는 것 • 통제 어휘의 필요성 • 검색시스템에 일관성을 부여 • 탐색과 검색을 보다 효율적으로 만듦 • 통제 어휘에 대한 반론 • 이용자로 하여금 정보요구 표현자유를 박탈 • 정보요구에 부합되지 않는 문헌이 많을 수 있음

데이터의 정형 구조 • 초기 컴퓨터 시스템 • 펀치 카드에 사용될 수 있는 코딩에 기반을 둔 매우 제한된 문자 사용 • 높은 수준의 텍스트 처리 부적합 • 고 수준의 텍스트 처리를 위한 인코딩 시스템 개발 • EBCDIC, ASCII, ANSI, RTF(Rich Text Format) • KSC 5601, KSC 5657

데이터 압축(1) • 데이터 압축 • 필요성: 데이터 양의 증가로 탐색 시간이 길어짐 • 정보의 손실이 필연적임. • 압축기법 • 어간법(stemming) • 일련의 관련 단어들을 공통되는 어간의 형태로 변환하는 방법 • 스테머(stemmers) 사용: 반복적 접사 제거 방법 • 예: computer, computers, computing, computational -> 어간: comput • 중복 사용으로 인한 모음 제거법 • 예 : Ths sntnc cn b rd rthr qckly by mst ppl.

데이터 압축(2) • 압축시 고려사항 • 압축 수준: 문자수준 or 단어수준 • 문자수준의 장점: 처리될 문자가 비교적 적음 • 단어수준의 장점: 보다 빠르고 효과적인 압축 가능 • 데이터 모델의 유형 • 기본개념: 짧은 압축코드는 사용빈도가 높은 부호에 • 정적(static)모델: 텍스트 표본을 검토, 이 표본을 나타내는 통계표를 작성함으로써 만들어짐. • 적응(adaptive) 모델: 텍스트를 구성하는 부호들의 통계 분포를 미리 구축 후, 문자나 단어가 코딩 되면서 수정됨 • 반정적(semi-static) 모델: 두 유형의 절충 형태, 정적 모델을 사용하지만 대상 파일에 따라 모델이 재정의됨

데이터 압축(3) • 데이터 모델의 압축 효과 • 정적 모델: 빠른 압축과 해제 • 적응 모델: 고밀도의 압축 가능. 큰 파일에 효과적 • 텍스트 압축을 위한 코드 • 호프만 코드 • 최소한의 평균길이를 갖는 정적 모델 코드 • 코딩될 부호의 빈도 분포에 초점 • Ziv-Lempel 코드 • 적응모델 코드, 호프만 코드보다 큰 압축 효과 • 산술적 코드 • 적응모델 코드, 텍스트 스트림이 숫자에 의해 표현

데이터 압축 – 예제(호프만코드) • 아래의 표와 같이 10개의 문자들이 각각의 빈도를 갖는다고 가정할 때의 처리과정 • e와 h를 선택하여(빈도:2,3) 빈도5인 eh tree를 만들어라. • b와 d를 선택하여(빈도:4,5) 빈도9인 bd tree를 만들어라.

데이터 압축 – 예제(호프만코드) • 최종 결과로 만들어진 트리 • 노드의 왼편 가장자리에는 0의 값이, 오른쪽 가장자리에는 1의 값이 할당되었음 호프만 트리 호프만 코드

데이터 압축 – 예제(Ziv-Lempel 인코딩) • LZ77 • Gzip인코딩의 기초 • 세 요소 <a, b, c>로 구성된 쌍들의 집합으로 이루어짐 • a : 해석된 텍스트에서 얼마나 뒤로 돌아가야 하는가 • b : 얼마나 많은 문자들이 복사되어야 하는가 • c : 다음 텍스트부분을 완성하기 위해 추가되어야 할 새로운 문자 교재 41 페이지 참조 →

데이터 압축 – 예제(Ziv-Lempel 인코딩) • 각 쌍마다 인코드된 문자의 수 • 문자의 수는 반드시 압축이 이루어지기 전에 각 쌍마다 세문자 이상이 되어야 함 • 궁극적으로 호프만 코드보다 많은 데이터 압축을 가능케 함 ← 교재 42 페이지 참조

데이터 압축 – 예제(산술적 코딩) • 문자열 “abacus”를 코드화 하는 문제 • 다섯 개의 문자(a,b,c,s,u)를 처음에 0과 1사이의 간격을 1/5씩 할당 • 첫 번째 조우된 a의 간격은 [0.000…, 0.200…)으로 제한 • 이와 동시에 각 문자들의 빈도들이 다시 계산 • 한문자가 처리되었으므로, 처리된 문자의 간격 확장 • a는 제한된 간격의 2/6 점유, 다른 문자들은 1/6씩 배당 • 문자사이의 간격이 더욱 줄어들게 됨 • 해독 절차도 인코딩과 마찬가지로 간격을 좁히는 과정을 거침 • 산술적 코딩 압축은 작은 규모의 예에서는 분명치 않음 • 전형적인 데이터 파일에서 압축코드는 문자 당 2.5비트 정도가 된다.

데이터 압축 – 예제(산술적 코딩) • 인코딩이 진행되면서,첫번째 자릿수들은 점차 반복작업을 통해 고정 • 자릿수들은 마지막 스트링까지 이동되며, • 간격은 남아있는 자릿수에 대해 다시 배분 • 이로 인해 정확도를 높일필요성이 경감 교재 44 페이지 참조 →

텍스트 형태의 문헌 • 마크업 언어(mark-up language) • 텍스트 형태의 문헌을 해석하는데 좋음 • SGML: 문헌 내의 제목, 저자, 소제목, 문단, 구획, 비문자적 요소들의 위치를 식별 • 종이에 인쇄된 문헌 • 데이터베이스를 새로 구축하거나 확장할 때 컴퓨터 화상 입력됨 • OCR

이미지와 소리(1) • 문헌에 대한 정의를 내리고 처리하는데 점점 중요한 위치를 차지함 • 이미지, 소리기반 검색시스템은 단지 텍스트형태로 설명하는 상태임 • 이미지를 직접 사용하여 질의 및 검색 기술 개발 진행 • IBM의 QBIC(Query By Image Content) • 이미지 검색시스템의 개발을 촉진하는 것은 지리정보시스템

이미지와 소리(2) • 이미지 압축을 위한 표준 • 연속길이 인코딩 • CCITT : 이미지 스캔 라인을 검정과 흰색으로 나누어 픽셀의 수를 기록, 팩스 표준 • 문맥 인코딩: 연속 톤 이미지에 초점을 맞춤 • JBIG: 2단계 이미지 처리를 위해 개발, 그래이 스케일 이미지에도 사용. • JPEG: 연속 톤 이미지에 적용, 2단계 이미지 + 컬러 • MPEG: 멀티미디어 문헌에 적용, 이미지 + 소리 + 동영상 • 소리는 검색보다는 전송에 초점을 맞춰 메시지 수 증가를 위해 시간과 주파수 압축 방법을 사용 • MIDI : Musical Instrument Digital Interface

문헌과 질의 형태

문헌과 질의 형태

Presentation Transcript