1 / 13

색인이란

색인이란. 어떤 문서에 대해 그 문서를 다른 문서들로 부터 구별할 수 있도록 선택 단서가 되는 단어 또는 단어구 등을 추출하는 것 정보원과 정보입수자 사이 위치하여 정보를 전달시키는 장치. 정보원. 색인. 정보 입수자. 색인과정. 주제분석 및 주요 개념 추출단계 코드와 단계 색인단계. 문헌 D. 색인어휘 V. C1 C2 C3 . . . Cn. T1 T2 T3 . . . Tn. 색인개념의 특정성 비교. k1. s1.

tassos
Download Presentation

색인이란

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 색인이란 어떤 문서에 대해 그 문서를 다른 문서들로 부터 구별할 수 있도록 선택 단서가 되는 단어 또는 단어구 등을 추출하는 것 정보원과 정보입수자 사이 위치하여 정보를 전달시키는 장치 정보원 색인 정보 입수자

  2. 색인과정 주제분석 및 주요 개념 추출단계 코드와 단계 색인단계 문헌 D 색인어휘V C1 C2 C3 . . . Cn T1 T2 T3 . . . Tn

  3. 색인개념의 특정성 비교 k1 s1 c1 c2 k2 c k3 c3 분류시스템 s2 c4 k4 주제명시스템 정보자료 키워드시스템

  4. 자 동 색 인 주제어나 핵심어를 컴퓨터를 이용하여 자동으로 찾아 내는 것. 색인자,즉 인간이 작성한 것과 같은 색인을 만든다 종류 1.통계적인 기법 2.언어학적 기법.

  5. Luhn의 빈도에 따른 자동색인 하한선 상한선 분별력 있는 중요단어 단어의 빈도수 중요단어 빈도수 순서의 단어

  6. 자동색인기법의 분류 구 현 장 점 단 점 색인의 종류 구현이 간단 정확도가 떨어짐.한국어에는 적용이 어려움 단어의 빈도계산.불용어제거 통계적 기법 형태소해석을 이용한 기법 단어의 형태소 해석 빈도수 계산 구현이간단. 한국어에 적용가능 정확도가 떨어짐 구단위의 추출이 어려움 언어학기법 단어의 형태소해석 구문해석 특정 의미구를 선택 단어,해석 결과의 애매성 구문해석기구 구현이 복잡 구문을 이용한 기법 정확한 색인어 추출.구단위의 색인어 추출 의미해석을 이용한 기법 문장의 완전한 이해 현실적으로각종 사전의 구성과 문장의 완전한 이해 불가능 가장 정확한 색인 추출

  7. 색인을 위한 사전 및 정보 • 명사 및 좌우 접속 정보 • 복합 명사 사전 • 기능어 사전 • 불용어 사전 • 전거어 사전 • 유사어 사전

  8. 한국어를 위한 격문법 • 단문내에서 서술어가 지배하는 명사구들의 역할을 분석하기위한 문법체계 • 격문법의 논리구조 1.Sentence Modality Proposition 2.법:시제,부정,…(보조용언에 의해 표현됨) 3.명제:서술어+격1+격2+..+격n 4.격:격 판별자+명사구 5.격 판별자:격조사(보조 조사 포함) 6.서술어 :동사 ,형용사,서술격조사 단문 법 명제

  9. 한국어 색인을 위한 격과 격률의 설정 기본 문형에 자주 출현하는 15가지 격 AGT:행위자 INS:도구 REA:원인 BEN:수익자 EXP:경험자 OBJ:대상 ELM:요소 FCS:초점 GOA:목표 LOC:장소 MEA:수단 PRT:비교 SOR: 출발 TAR:종착 DUP:유사목적

  10. 전자사전의 요구사항 형태소 해석기의 사전 검색형태를 유지하여 빠른 검색속도를 제공해야 한다. • 사전의 색인 구조를 포함한 많은 부분이 주기억 장치내에 상주해야하고 적은 양의 주기억장치를 차지해야 한다. • 시스템의 초기화 시 사전 색인 구조를 주기억 장치로 읽는 시간이 짧아야 한다. • 사전 엔트리의 수정시 검색과 동시에 삽입 삭제 가능하여야 한다.

  11. HSPELL의 사전구조 학 ㄱ..ㅅ ㅇ ㅈ..ㅎ.ㅏ…ㅣ 학 2 3 15 4 26 학교 2 3 16 4 27 학생 2 3 15 4 27 학원 2 3 15 4 26 학원장 2 3 15 4 26 학장 2 3 15 4 2 … … 2 3 15 4 26 ㄱ..ㅛ..ㅣ …ㅐ… …눠… ㅏ.. 2 3 16 4 27 …ㅇ… …ㄴ… ..ㅇ.. 2 3 15 4 26 ..ㅈ.. 2 3 15 4 26 2 3 15 4 26 ㅏ… ..ㅇ.. 주기억장치에 로딩된 사전 텍스트사전 2 3 15 4 26

  12. DACOHSE의 사전구조 2 학 2 3 15 4 26 학교 2 3 16 4 27 학생 2 3 15 4 26 학원 2 3 15 4 26 학원장 2 3 15 4 26 학장 2 3 15 4 26 … 3 학 2 3 15 4 26 학교 2 3 16 4 27 4 학생 2 3 15 4 26 학원 2 3 15 4 26 학원장 2 3 15 4 26 학장 2 3 15 4 26 메모리에 코드된 사전화일정보 파일에 구현된 사전 …. A.텍스트사전 B.구현된 사전 색인 구조

  13. BTI의 사전구조 학 2 3 15 4 26 학교 2 3 16 4 27 학생 2 3 15 4 26 학원 2 3 15 4 26 학원장 2 3 15 4 26 학장 2 3 15 4 26 … 2 3 15 4 26 2 3 15 4 27 ……… 학 자식 포인터 접속 정보 테이블 주기억장치 교 생 원 장 장 ㈜ :형제포인터 A.텍스트사전 B.저장상태

More Related