1 / 36

Part-of-Speech Tagging Markov Model Tagger 를 중심으로

Part-of-Speech Tagging Markov Model Tagger 를 중심으로. 부산대학교 컴퓨터공학과 한국어정보처리 연구실 정성원. 목 차. 일반적인 태깅 품사 태깅 기법 일반적 통계 기반 품사 태깅 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가. Part-of-speech tagging ( 품사 태깅 ).

ward
Download Presentation

Part-of-Speech Tagging Markov Model Tagger 를 중심으로

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Part-of-Speech TaggingMarkov Model Tagger를 중심으로 부산대학교 컴퓨터공학과 한국어정보처리 연구실 정성원

  2. 목 차 • 일반적인 태깅 • 품사 태깅 기법 • 일반적 통계 기반 품사 태깅 • 한국어 품사 태깅 • 한국어의 형태 ◦ 통사적 특징 • 통계 기반 한국어 품사 태깅 • 형태소 n-gram 모델 보완 • 어절 확률 추정에 기반한 한국어 태깅 모델 • 어절 확률 추정 • 어절 확률 추정에 기반한 HMM 모델 • 성능 평가

  3. Part-of-speech tagging (품사 태깅) • Part-of-speech tagging, PoS tagging: Assigning a part-of-speech category to each word-token in a text.

  4. 품사(범주) 분류 (Tagset) 일반적 품사 분류의목적 문장구조를 효율적으로 기술하고 처리하기 위함 되도록이면 자세하게 분류하는 것이 좋음 Major English tagsets: Penn (45 tags); Brown (87 tags); Lancaster: CLAWS series of tagsets, C5, and C7 (for BNC, 146 tags). 품사 분류 기준 기능(function) : 각 단어(or 형태소)가 어느 문장 성분(주어, 서술어, 목적어, 수식어, 관계어 등) 자리에 놓일 수 있는지에 따른 분류 형태(form): 각 형태소의 어형 변화나 굴절 특성에 따른 분류 의미(meaning): 각 형태소의 의미에 따른 분류 품사 태그 집합 크기의 변이 요소 적용한 품사 분류 기준 문장부호 및 조사의 세분화 정도 품사분류의 일반적 목적에 부합하여 대부분의 연구들에서 기능 기준 분류를 일차적으로 고려함 4

  5. 품사(범주) 분류 (영어, Penn Treebank)

  6. 품사(범주) 분류 비교 (한국어)

  7. 일반적 통계 기반 품사 태깅 1 관련연구 • 통계적 품사 태깅 • 한 문장을 이루는 어절열 w1,n이 주어졌을 때, 가장 확률이 높은 태그열 t1,n을 구함 • 일반적인 통계 기반 모델에서 tag의 확률 • 이전의 history에 대한 조건부 확률로 구함 • 현실적으로는 전체 history에 대해 조건부확률을 구하는 것이 불가능 ∴ n-gram 모델을 도입하여 국부적인 문맥(local context)을 이용

  8. Markov Assumptions • Let X=(X1, .., Xt) be a sequence of random variables taking values in some finite set S={s1, …, sn}, the state space, the Markov properties are: • Limited Horizon: P(Xt+1=sk|X1, .., Xt)=P(X t+1 = sk |Xt) i.e., a word’s tag only depends on the previous tag. • Time Invariant: P(Xt+1=sk|X1, .., Xt)=P(X2 =sk|X1) i.e., the dependency does not change over time. • If X possesses these properties, then X is said to be a Markov Chain • Tagging에서의 Limited Horizon property

  9. 0.6 1.0 0.4 h a p 0.4 1.0 0.6 0.3 i e t 1.0 0.4 start iced tea cola lemonade 0.1 0.6 0.3 CP IP 0.3 0.7 0.5 0.5 0.1 0.2 cola lemonade 0.7 iced tea Markov Model • Visible Markov Model • Hidden Markov Model P(t,i,p) = P(t)P(i|t)P(p|i) = 1.0 x 0.3 x 0.6 = 0.18 {lemonade, ice tea} 0.7x0.3x0.7x0.1 + 0.7x0.3x0.3x0.1 + 0.3x0.3x0.5x0.7 + 0.3x0.3x0.5x0.7 = 0.084

  10. 품사 태깅에서의 HMM • HMM이 성립될 요소 {S, V, A, B, π} • S : 상태 (품사) • V : 각 상태에서 일어날 수 있는 서로 다른 관측 심볼 (단어) • A : 상태 전이 확률 • B : 관측 확률 • π : 초기 상태 확률

  11. 일반적 통계 기반 품사 태깅 2 관련연구 • n-gram 차수가 높을수록 통계 기반 모델의 정확도는 더 높지만 현실적으로 n이 큰 모델은 구축하기 힘듦 • 타입(가짓수)의 통계정보를 유지하기 위한 사전의 메모리가 많이 필요 • n-gram 차수가 높을 수록 자료부족 문제 심각 • 20,000개의 연속된 어절 타입으로 이루어진 말뭉치에서 추출할 수 있는 이전 문맥을 고려한 bi-gram  19,999개 (vs. 이론적 4억 개의 조합)

  12. 일반적 통계 기반 품사 태깅 3 관련연구 • 태그 확률 우선 전개 • 마르코프 가정 적용 • 현재 품사의 발생은 바로 이전의 품사에만 의존 (n=2, 품사 bi-gram) • 현재 어절의 발생은 현재의 품사에만 의존 (n=1, 품사에 대한 어절 uni-gram) • 태그 확률 우선 전개 HMM 품사 태깅 모델 ( n=2, bi-gram 모델 )[Charniak93]

  13. 일반적 통계 기반 품사 태깅 4 관련연구 • 어절 확률 우선 전개 • 마르코프 가정 적용 • 현재 어절의 발생은 바로 이전의 어절에만 의존 (n=2, 어절 bi-gram) • 현재 품사의 발생은 현재의 어절에만 의존 (n=1, 어절에 대한 품사 uni-gram) • 어절 확률 우선 전개 품사 태깅 모델 [Charniak93]

  14. 통계 정보 추출 ti-1 ti ti+1 wi-1 wi wi+1 P(NN|AT) = 48636/(48636+19) = 99.96

  15. 명사 명사+조사 1 1 0.2 0.2 0 1 1 타동사+어미 0.3 0.1 0.6 0.6 타동사+어미 자타동사+어미 0.5 0.5 0.5 0.5 0.4 0.2 최적 후보 열 선택 방법- Best choice • 방법 • 후보들 중 선택 확률이 가장 높은 것을 선택(전후 어절 사이에 존재하는 전이 확률을 사용하는 것도 가능) 음식을 해 가지고 갈 생각 수의존명사 명사+조사 명사 명사 명사+조사 명사 수의존명사+어미 타동사+어미 자타동사+어미 타동사+어미 보조용언+어미 보조용언+어미

  16. Viterbi algorithm • The Viterbi Algorithm works as follows: • Initialization: δj(1) = πj, 1≤ j≤ N • Induction: δj (t+1) = max1≤ i≤Nδi(t)aijbijo_t 1≤ j≤ NStore backtrace:ψj(t+1) = argmax1≤ i≤Nδj(t)aij bijo_t 1≤ j≤ N • Termination and path readout:XT+1 = argmax1≤ i≤Nδj(T+1)Xt = ψXt+1(t+1)P(X) = max1≤ i≤Nδj(T+1)

  17. 명사 명사+조사 S S 타동사+어미 S 자타동사+어미 S 보조용언+어미 S Pia Si-1a 명사 Pia 명사 Pib Si-1b Pi-1a Pi+1a Pic Pib 타동사+어미 Pic Si-1c Pi-1b 보조용언+어미 Pi-1c 음식을 해 가지고 갈 생각 수의존명사 명사+조사 명사 명사 명사+조사 S S S S S 명사 수의존명사+어미 타동사+어미 S S S 자타동사+어미 타동사+어미 보조용언+어미 S S S 보조용언+어미 S Viterbi algorithm • 방법 • 앞 어절들과의 관계 중 가장 확률이 높은 것을 선택Si+1a = argmax(Si-1 * Pi * Pi-1a) • 계산이 끝난 후 back track하면서 선택 함 Si+1a Pi+1a S S S S S S S S S S S S

  18. 목 차 일반적인 태깅 품사 태깅 기법 일반적 통계 기반 품사 태깅 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가 18

  19. 한국어 품사 태깅 관련연구 • 통계 기반 한국어 품사 태깅 관련 연구 • 어절 n-gram 기반 HMM 모델을 그대로 응용  한국어 어절의 다양한 변화로 인한 자료부족 문제가 심각 • 형태소 n-gram 기반 모델로 수정  어절 내의 형태소결합제약에 따른 한국어의 어절 문맥정보를 효율적으로 반영하지 못함 • 형태소 n-gram 모델 보완 • 형태소 bi-gram 이상의 정보를 사용 • 어절 문맥정보를 포함하기 위한 규칙 혼합 모델 제안 • 경계 태그 사용

  20. 한국어의 형태 ◦ 통사적 특징 1 연구 대상 언어의 특징 • 형태소 구분 • 어휘형태소(실질형태소) : 명사, 수사, 동사, 형용사, 부사 등 • 문법형태소(의존형태소) : 어미류, 조사류, 접사류 • 어절 내 형태소 결합 제약 각 형태소들이 형태소 범주 간의 결합 제약 하에 어절을 형성 • 어절 간 형태소열 결합 제약 한국어에서 각 어절은 이웃하는 어절과 (국부적) 통사 제약 관계를 이룸 • 어절 내와 어절 간은 통계적인 분포가 다르므로 이중 HMM모델을 구성

  21. Tagged Corpus • 세종 Corpus • 한국어의 통계적 언어처리를 위한 Golden Standard

  22. 실제 데이터 (일부) • 원본 • 형태소 Tag unigram • 형태소 Tag bigram • 형태소 unigram

  23. 한국어 품사 태깅 관련연구 • 어절 n-gram HMM을 한국어 품사 태깅에 그대로 응용 • [이운재92]: 태그 17개 고려 • 90%의 정확도 • 형태소 n-gram 기반 모델로 수정 • [이상호93 외] • 고려사항 : 형태소 분석경계가 일치하는 것만 transition을 설정 • 어절을 인식하지 못하고 어절간의 문맥 정보를 고려하지 못함 • 93.59%의 정확도

  24. “관형형어미”와 “동사” 간의 전이 형태소 n-gram 모델 보완 1 관련연구 • 이중 HMM(Two-ply HMM) 모델 [김진동96] • 품사열 전이 확률: 어절 간 품사 전이 확률 + 어절 내 품사 전이 확률 • 어절 간 문맥 매개변수를 형태소 단위로 모델링 • 장점 • 어절 단위 문맥 고려 • 자료부족문제를 완화한다는 장점 • 단점 • 한국어의 언어적 특성을 반영하는 어절 간 형태소열 결합 제약조건에 비추어볼 때 직관적이지 못한 문맥 정보를 사용하는 경우 발생 hi= i번째 품사열(어절)의 머리(head)품사; ti= i번째 품사열(어절)의 꼬리(tail)품사

  25. 형태소 n-gram 모델 보완 2 관련연구 • HMM을 확장하고 어절 경계 매개 변수를 적용한 모델 [Lee00] • 새로운 매개변수 도입 장점: 어절경계 인식: 띄어쓰기 태그(어절 경계) p도입 단점: 어절 내의 구조성은 파악을 못함 tri-gram을 통한 충분한 성능 확보: 메모리 문제 ∧(C[s](2:2), M[s](2:2)) => tri-gram일 때 최고 성능(96.97%)

  26. 목 차 일반적인 태깅 품사 태깅 기법 일반적 통계 기반 품사 태깅 한국어 품사 태깅 한국어의 형태 ◦ 통사적 특징 통계 기반 한국어 품사 태깅 형태소 n-gram 모델 보완 어절 확률 추정에 기반한 한국어 태깅 모델 어절 확률 추정 어절 확률 추정에 기반한 HMM 모델 성능 평가 26

  27. Word Probability Estimation (1) • Word 는 형태소로 이루어져 있음 • Word내 HMM을 이용한 Word 추정 • 가정 1 : Word내 형태소들은 독립이다. Eq(1) Eq(2)

  28. Word Probability Estimation (2) • 가정 2 : 단어의 출현확률은 형태소 태그 패턴과 연관이 있다. • 가정 3 : 단어의 생성은 각 형태소의 태그과 연관이 있다. Eq(3) Eq(4)

  29. 범주 패턴 종류

  30. 학습 과정 학습 • 형태소 태그 패턴 통계 정보 추출을 위한 학습 자료 준비 및 학습 • 세종 Corpus • 어절 내 형태소 태그 패턴통계 정보 추출 • 학습 시간의 단축을 위하여 균형적으로 표본추출 • 형태소 태그의 가중치 학습(시뮬레이티드 어닐링 알고리즘 사용)

  31. 학습 알고리즘 학습 • 형태소 태그 가중치 학습 실제 관측된 형태소 열의 출현 확률과 형태소 태그 패턴을 기반으로 추정한 형태소 열 출현 확률의 오차가 최소가 되는 방향으로 형태소 태그 가중치 학습 Tmtj= 학습에 사용한 총 형태소 태그 패턴 개수 mγ= 학습에 사용한 패턴 집합 중 형태소 태그 패턴 mtj로 어절을 형성하는 γ 형태소열 RP = 실 관측 확률 EP = 추정 확률

  32. 어절 확률 추정 모델 평가

  33. CAP-TM 적용 모델 적용 • “시기를”에 IntraCP와 범주 가중치를 적용

  34. HMM using the estimated word probability • 기존 HMM과 같으나 단어의 확률을 추정 확률로 사용하는 것만 다름 Eq(5)

  35. Smoothing • Good-Turing Estimation • 각 통계 정보마다 모두 Good-Turing Esitmation값을 구함 형태소 unigram 형태소 tag bigram 어절 tag unigram 어절 tag bigram

  36. 성능 평가

More Related