1 / 30

형태소 분석

형태소 분석. 형태소의 정의 의미가 있는 최소의 단위 ( minimally meaningful unit) 문법적, 관계적인 뜻을 나타내는 단어 또는 단어의 부분 형태소 분석 단어(또는 어절)를 구성하는 각 형태소 분리 분리된 형태소의 기본형 및 품사 정보 추출. 형태소 분석이란 무엇인가?. 형태소 분석 과정 분석 후보 생성 문법 규칙에 맞는 후보 생성 형태소 분리와 기본형 추정 분석 후보로부터 옳은 결과 선택 형태소끼리의 결합 제약 조건 만족 사전에서 기본형 확인

keiran
Download Presentation

형태소 분석

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 형태소 분석 • 형태소의 정의 • 의미가 있는 최소의 단위 (minimally meaningful unit) • 문법적, 관계적인 뜻을 나타내는 단어 또는 단어의 부분 • 형태소 분석 • 단어(또는 어절)를 구성하는 각 형태소 분리 • 분리된 형태소의 기본형 및 품사 정보 추출

  2. 형태소 분석이란 무엇인가? • 형태소 분석 과정 • 분석 후보 생성 • 문법 규칙에 맞는 후보 생성 • 형태소 분리와 기본형 추정 • 분석 후보로부터 옳은 결과 선택 • 형태소끼리의 결합 제약 조건 만족 • 사전에서 기본형 확인 • 자연언어의 특징 (형태소 분석의 관점에서) • 형태소 분석의 처리 대상 : 단어 또는 어절 • 단어  하나 이상의 형태소로 이루어짐. • 형태소 분석 결과 : 단어간의 결합 제약 • 형태론적 모호성 발생

  3. 형태소 분석의 관점 • 언어학/국어학의 관점 • 새로운 형태론적 언어 현상 발견 및 규명 • 정성적 (qualitative) • 배경지식 : 인가의 언어 능력 • 전산 언어학의 관점 • 컴퓨터 프로그램으로 형태소 분석하는 방법론 • 정량적 (quantitative) • 형태론적 현상들을 컴퓨터로 처리하는 방법 • 다양한 형태론적 현상들을 처리할 수 있는가? • 얼마나 정확한 분석을 수행하는가? • 시스템이 얼마나 효율적인가? • 배경지식 : 어휘 사전과 문법 규칙

  4. 일반적인 형태소 분석 과정 • 형태소 분석 입력 : 단어 (어절) • 형태소 분석 출력 • 단어를 이루고 있는 형태소들의 기본형 • 각 형태소의 품사 또는 문법적/관계적인 의미를 나타내는 기호 • 형태소 분석의 예 감기는 : (NOUN ‘감기’) + (JOSA ‘는’) (VERB ‘감기’) + (EOMI ‘는’) (VERB ‘감’) + (EOMI ‘기’) + (JOSA ‘는’) 가시는 : (NOUN ‘가시’) + (JOSA ‘는’) (VERB ‘가시’) + (EOMI ‘는’) (VERB ‘가’) + (P-EOMI ‘시’) + (EOMI ‘는’) (VERB ‘갈’) + (P-EOMI ‘시’) + (EOMI ‘는’)

  5. 일반적인 형태소 분석 과정 (1) • 전처리 단계 • 문장으로부터 단어 추출 • 문장 부호 분리 • 숫자나 특수 문자열 처리 • 분석 후보 생성 • 형태소 분리 • 불규칙 원형 복원 • 결합 제약 검사 • 모음 조화 • 형태소 결합 제약 • 음운현상에 따른 제약 등

  6. 일반적인 형태소 분석 과정 (2) • 옳은 후보 선택 • 사전 탐색 • 단어 형성 규칙 • 후처리 단계 • 복합 명사 추정 • 사전 미등록어 처리 • 준말 처리

  7. 언어 특성에 따른 형태소 분석 • 띄어쓰기 안 하는 언어 (중국어, 일본어 등) • 단어 분리 문제 중요 • 굴절이 심한 언어 (핀란드어 등) • 형태소의 원형 복원 강조 • 교착어 (한국어 등) • 형태소 분리 문제 중요

  8. 응용 분야에 따른 형태소 분석 • 기계번역, 기계이해 시스템 • 분석의 정확성, 모호성 해결 강조 • 자동색인, 정보검색 • 명사(키워드) 추출, 복합 명사/미등록어 처리 • 맞춤법 검사 및 교정 • 오류어 분석 문제 중요

  9. 형태소 분석 방법 (1) • 언어학적 방법 • 변형 생성 문법 • 형태론적 변형 현상 설명 • 변형 규칙으로 기술 • 변형 현상을 설명하는 단위 규칙 • 단위 규칙들의 적용 순서 문제 발생

  10. 형태소 분석 방법 (2) • 전산언어학적 방법 • 형태소 분석 알고리즘 중시 • 형태론적 현상의 처리 목적 • 단위 규칙 대신 합성 규칙 사용 • 중간과정보다는 최종 분석 결과 중시 • 언어 독립적 방법론 • 보편적인 언어 현상 처리 • 형태론적 변형, 형태소 분리 • 언어 종속적 방법론 • 개별적인 언어 현상 처리 • 단어 형성 규칙, 띄어쓰기 등

  11. 언어 독립적 방법론 • Two-level형태론 • 형태소 분석 및 생성 이론 • 분석과 생성을 동일한 규칙으로 기술 • 생성은 분석의 역방향 • 형태소 분석 : 표층형을 어휘형으로 변환 • Two-level규칙으로 처리 • 형태론적 변형 현상 처리에 적합 • 한국어에서는 불규칙 활용 어절

  12. Two-level형태론의 구현 • Two-level모델 (TM) • TM = (R, F, D) R : two-level규칙들의 집합 F : Finite State Transducer D : trie구조로 된 사전 • R : string match로 표현 • F는 Ri (Ri  R)를 FST로 표현 • 규칙 기반 시스템의 효율성 문제 해결 • Trie 구조 사전(D) • 입력 문자열과 사전의 string 일치에 필수

  13. 음절 기반 형태론 • Two-level모델의 문제점 • Two-level규칙을 string 일치로 기술 제약 • 비선형적(nonlinear)음운 현상 • 독일어의 움라우트 처리 등. • Two-level규칙의 기술 방법 • 음절과 음운을 기반으로 하여 lhs/rhs/조건(C)을 (특성, 값) 쌍으로 기술 [LHS -----> RHS : C] • 특성-값 쌍의 기술 예 • (stem, +1) :단어의 첫번째 음절 • (rhyme, -1) :마지막 음절의 각운 • (coda, +1) :첫번째 음절의 종성 • (coda, +1) /ㅆ/ : 첫음절 조성이 ‘ㅆ’ • (coda, +1) [voiced, +]

  14. 한국어 형태소 분석 방법론 (1) • 한국어 형태소 분석법 분류 • 단어 검색 방향에 따라 • Left-to-right, right-to-left, bi-directional • 형태소 분리 문제 • Head-tail구분법 • 형태소 결합 문제 • Tabular 파싱법, 최장/최단 일치법 • 형태소 분리 및 결합 문제 • 음절 단위 분석법

  15. 한국어 형태소 분석 방법론 (2) • Head-tail구분법 • 형태소의 분리 • Head :변형이 일어나지 않는 부분 • Tail :변형이 일어나는 부분 • Head와 tail의 접속 관계 : 접속정보표 • Top-down방식 (1) 분절 가능한 tail을 모두 찾음 (2)tail로부터 head추정

  16. 한국어 형태소 분석 방법론 (3) • Tabular 파싱법 • Bottom-up방식 • 단어를 이루는 가능한 형태소 추출 자모 단위의 substring을 사전에서 검색 • 추출된 형태소  삼각 테이블에 저장 • CYK 알고리즘의 변형 • 삼각 테이블에서 단어를 이루는 형태소 집합 발견 • 동적 프로그래밍 기법 : 처리 속도 문제

  17. 한국어 형태소 분석 방법론 (4) • 최장 일치법과 최단 일치법 • Tabular파싱법의 효율 문제 해결 • 우선 순위(형태소의 길이에 따라)가 높은 형태소를 우선적으로 분석 • Backtracking방법 이용 • 한 가지 분석 결과만 필요한 때 사용 • 최장 일치법 • 단어를 이루는 형태소의 길이가 긴 것 우선 • 최단 일치법 • 단어를 이루는 형태소의 길이가 짧은 것 우선

  18. 한국어 형태소 분석 방법론 (5) • 음절 단위 분석법 • 알고리즘과 사전 탐색의 비효율성 문제 • 한국어의 음절 특성 이용 • 단위 음절 특성, 부분 음절 특성 • 분석 후보들의 자격 요건 강화 • 분석 후보의 수를 최소화 • 방법론 • 형태 변이가 일어난 음절의 특성 이용 • 복합 명사 및 미등록어 추정 • 특이한 언어 현상 (예: 불구동사, 준말 등) • 기분석 사전에 분석 결과 저장 • 음절 단위 비교 및 음절 단위 사전 구성 • 문법 형태소 분리 • 음절 단위로 분리 • 조사/어미의 음절 특성 이용 • 형태론적 변형 • 원형 복원법 사용

  19. 영어 형태소 분석 (1) • 영어 형태소 분석 • 규칙 변형 (regular inflection) • 단어의 원형 복원 • 접두사 및 접미사 분리 • 불규칙 변형 (irregular inflection) • 기분석 사전으로 분석 결과 수록 • 접미사 분리 • 명사 : 복수형, 소유격 • Books  book + s, John’s -> John + ’s • 동사 : 3인칭 단수, 과거/과거분사/현재분사 • Changing  change + ing • 형용사, 부사 : 비교급, 최상급 • -ly, -ation등

  20. 영어 형태소 분석 (2) • 형태소에 대한 정보 제공 • 형태소의 기본형, 품사, 수 (단수, 복수) • 단어의 쓰인 형태 • 동사 : 현재, 과거, 과거분사, … • 형용사, 부사 : 원급, 비교급, 최상급, … • 대명사 : 주격, 소유격, 목적격 • 단어의 쓰이는 유형 • 접속사 : 등위 접속사, 종속 접속사 • 부사 ; 원급, 비교급, 최상급 • 동사의 패턴 • 동사, 명사의 경우 함께 잘 쓰이는 전치사 • 대명사의 인칭 • 문장에서 나타난 단어의 형태

  21. 한국어 단어의 유형 (1) • 어휘형태소 유형에 따라 • 어휘유형 1: 단일 형태소로 이루어진 단어 • 어휘유형 2: 어휘형태소의 품사가 체언인 것 • 어휘유형 3: 어휘형태소의 품사가 용언인 것 • 어휘유형 4: 어휘형태소가 복합명사인 것 • 어휘유형 5: 준말인 단어 • 어휘유형 6: 숫자나 영문자가 포함된 것 • 어휘유형 7: 어휘형태소가 미등록어인 것

  22. 한국어 단어의 유형 (2) • 문법형태소의 유형에 따라 • 문법유형 1: 조사 혹은 어미만 결합된 단어 • 문법유형 2: 선어말어미가 결합된 단어 • 문법유형 3: 어미의 변형이 일어난 단어 • 문법유형 4: 서술격 조사가 생략된 단어 • 문법유형 5: 접미사가 있는 단어 • 문법유형 6: 보조 용언이 결합된 단어

  23. 한국어 형태소 분석 • 한국어 형태소 분석기에 필요한 기능 • 조사와 어말 어미의 분리(어미의 변이체) • 생략된 서술격 조사 복원 • 선어말 어미와 접미사의 분리 • 불규칙 원형 복원 • 붙여쓰기가 허용되는 경우(보조 용언) 처리 • 준말 처리 • 복합어와 미등록어 추정 • 영문자, 숫자, 수사 처리 • 사전 탐색 기능

  24. 형태소 분리 • 형태소 분리 대상 • 어근, 조사, 어미, 선어말어미, 접미사 • 사전에 수록되는 형태소의 결합형 (가) 조사로만 이루어진 결합형 • 서술격 조사 ‘이’는 제외 (나) 어말 어미로만 이루어진 결합형 • 명사형 어미는 제외 (다) (가)에 어말 어미가 결합되는 경우 (라) (나)에 조사가 결합되는 경우 예) ‘사무실에서부터였다고는’  ‘사무실’ + ‘-에서부터’ + ‘-이-’ + ‘-었-’ + ‘-다고는’

  25. 불규칙의 원형 복원 (1) • 불규칙 유형과 끝음절 특성 • ‘ㄷ’ 불규칙 : 10개 (끝음절로 사용되는 음절) • 걷/긷/닫/묻/싣/겯/눋/듣/붇/컫 • ‘ㅂ’ 불규칙 : 46개 • ‘ㅅ' 불규칙 : 9개 • 긋/낫/붓/잣/짓/끗/뭇/잇/젓 • ‘ㅎ’ 불규칙 : 10개 • 갛/닿/랑/맣/얗/겋/떻/렇/멓/옇 • '러‘ 불규칙 : 1개 • ‘르’ 불규칙 : 1개 • ‘으’ 탈락 : 11개 • 그/끄/느/뜨/르/쁘/쓰/으/크/트/프

  26. 불규칙의 원형 복원 (2) • 원형 복원 • 끝음절 특성에 해당되는 어근에 대해서만 • 분석 후보의 수 최소화 • 사전 탐색 overhead 줄임

  27. 복합어와 미등록어 추정 • 복합명사 추정 • 4/5/6 음절 복합명사 : 복합명사 97% • 3 음절 복합명사 : 사전에 수록 • 7 음절 이상 복합명사 : 미등록어 처리 • 미등록어 추정 • 문법형태소 분리 후 어근을 미등록어로 간주 • 미등록어 선택 시 우선순위 1. 세 개 이상의 형태소로 분리된 후보 2. 체언으로 분석된 후보 (조사가 분리된 후보) 3. 두 음절 이상의 어미가 분리된 후보 4. 어휘 형태소 부분이 길이가 짧은 것 5. 용언보다는 체언 후보 우선

  28. 형태소 분석기의 성능 • 분석률 (analysis ratio) • 정확히 분석한 비율 (%) • 잘못 분석한 비율 • 틀린 단어의 인식 비율 • 처리속도 • 단위 시간당 분석한 단어의 수 • 알고리즘의 복잡도와 사전 탐색 횟수에 비례 • 모호성 분석 여부 • 모호성이 내포된 단어의 모든 분석 결과 생성 • 모호성 해결 여부

More Related