1 / 32

태 깅

태 깅. 발표 : 김종환. 전체구성. Introduction 규칙 기반 접근법 (Rule-based Approach) 통계적 접근법 (Statistical Approach) 복합적 접근법 (Hybrid Approach) 한국어 태깅 결론 참고문헌 Q & A. 태깅 (tagging) 필요성. 태깅이란 ?. 1. Introduction[1/8]. 자연언어는 어휘 , 구문 , 의미 수준의 본질적인 중의성 (ambiguity) 포함

azra
Download Presentation

태 깅

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 태 깅 발표 : 김종환

  2. 전체구성 • Introduction • 규칙 기반 접근법(Rule-based Approach) • 통계적접근법(Statistical Approach) • 복합적접근법(HybridApproach) • 한국어태깅 • 결론 • 참고문헌 • Q & A

  3. 태깅(tagging) 필요성 태깅이란? 1. Introduction[1/8] • 자연언어는 어휘, 구문, 의미 수준의 본질적인 중의성(ambiguity) 포함 • 원시말뭉치(rawcorpus) 사용 시정확한 언어정보 추출 어려움 • → 부가적 언어 정보(tag) 부착 • 언어의 중의성을 해소하기 위해서 부가적인 언어 정보를 부착하는 작업 • - 어휘 태깅(lexicaltagging), 구문 태깅(syntactic tagging), 의미태깅(semantic tagging)

  4. 태깅의 종류 1. Introduction[2/8] • 어휘 태깅 • 품사 부착 작업 → 품사 태깅(part-of-speech tagging)이라고함 • - 한국어 어휘 태깅 : 일반적으로 형태소 식별 후 형태소 단위 태그 부착 Energetic/JJ and/CC concrete/JJ action/NN has/VBZ been/VBN taken/VBN in/IN Colombia/NNP during/IN the/DT past/JJ 60/CD days/NNS against/IN the/DT mafiosi/NNS of/IN the/DT drug/NN trade/NN ,/, but/CC it/PRP has/VBZ not/RB been/VBN sufficiently/RB effective/JJ ,/, because/RB ,/, unfortunately/RB ,/, it/PRP came/VBD too/RB late/JJ ./. 그림 1. 품사 태깅의 예

  5. 태깅의 종류(계속) 1. Introduction[3/8] • 구문 태깅 • 트리 형태로 구문에 관련된 언어 정보 부착(트리 태깅 또는 bracketing) • 의미태깅 • 중의성 있는 어휘에 대해 그 의미 부류를 태그로 부착(sensetagging) ( (S (NP-SBJ-1 The censorship) (VP is (VP enforced (NP *-1) (PP-MNR through (NP terrorism and assassination)))) .)) Energetic and concrete <wf cmd=arb lemma=action wnsn=5>action</wf> has been <wf cmd=done lemma=take wnsn=1>taken</wf> in <wf cmd=done lemma=Colombia wnsn=place>Colombia </wf> during the past… 그림 2. 구문 태깅의 예 그림 3. 의미 태깅의 예

  6. 어휘 태깅 연구 1. Introduction[4/8] • 자연언어처리에서 태깅은 대부분 어휘 태깅(품사 태깅, 형태소 태깅)을 지칭 • 1980년대 영어권 중심 발달 (한국어 1990년대 본격적 연구 시작) • 기계번역, 기계 이해, 정보 검색, 말뭉치 가공 등 여러 분야에서 어휘 태거 사용 • 최근 대부분의 태거의 95% 이상의 정확성을 보임

  7. 어휘 태깅 시 고려 사항 1. Introduction[5/8] • 품사 집합(Part-of-Speech Tag Set) 결정 문제 • 세분화된품사 집합 사용 : 중의성 증가, 태깅 후 자세한 정보 추출 가능 • 세분화 되지 않은 품사 집합 사용 : 비교적 정확한 품사 태깅 가능, 추출 정보 제한적 ex) ‘큰’ - 세분화된 품사 집합(중의성 문제 발생, 자세한 태깅 정보) ‘크 + ㄴ’ 자동사 + 과거시제어미 ‘크 + ㄴ’ 형용사 + 현재시제어미 - 덜 세분화된 품사 집합(중의성 문제 없음, 제한적 정보) ‘크 + ㄴ’ 용언 + 어미 그림 4. 품사 집합 결정 예

  8. 어휘 태깅 시 고려 사항(계속) 1. Introduction[6/8] • 미등록어(Unknown Word) 처리 문제 • 정의 : 태깅 시스템이나 형태소 분석기에서 사용하는 사전에 등록되지 않은 단어 • 미등록어 후보 추출 후 사람이 편집하여 사전에 등록하여 사용 • → 효과적인 처리지만 비용이 많이 듬 • - 실시간 처리 시스템에서는 미등록어 처리 기능이 내장되어 있어야 함 • 자료 부족(Data Sparseness) 문제 • 정의 : 사전에는 정보가 구축되어 있으나 이에 관련된 통계정보를 코퍼스로부터 • 추출할 수 없거나, 적은 빈도로 존재하여 추출된 통계정보의 신뢰도가 낮을 때 • 원인 : 학습 코퍼스가 다양한 언어 현상을 모두 반영하지 못하기 때문 • 해결방법 • → 자료 부족 문제를 해결할 방법(smoothing)을 구축 • → 대량의 균형 있는 코퍼스(balanced corpus) 사용

  9. 어휘 태깅 시 고려 사항(계속) 1. Introduction[7/8] • 학습방법 결정 • Unsupervised Learning(자율 학습) • → 원시 코퍼스에서 직접 추출하여 태깅 시스템 학습 • Supervised Learning(지도 학습) • → 태깅된 코퍼스에서 통계 정보나 규칙 정보 추출하여 태깅 시스템 학습 • - 지도 학습이 높은 정확률을 보이나 태깅된 코퍼스를 구축해야 하는 어려움이 따름 • 응용분야에 적합한 설계 • 특정 응용분야에 적합한 설계 필요(Domain Knowledge 활용) • 한국어 품사 태깅 시 단위 결정 • 영어와 달리 한국어는 어절이 ‘실질형태소+형식형태소’로 구성(교착어) • 어절단위 태깅 또는 형태소 단위 태깅

  10. 어휘태깅에 대한 연구 접근 방법 1. Introduction[8/8] • 규칙 기반 접근법(Rule-based Appoach) • 자연어에 적용되는 공통된 원리나 결정적인 규칙을 찾아서 사용 • 통계적접근법(Statistical Approach) • 원시 또는 태깅된 말뭉치에서 추출된 통계 정보를 이용하여 태깅 수행 • 복합적접근법(Hybrid Approach) • - 위 두 방법의 장단점 보완

  11. 규칙 기반 접근 방법 언어 정보 2. 규칙 기반 접근법[1/4] • 언어 정보를 생성 규칙의 형태로 표현하고 이를 적용하여 태깅 • 시스템 분류 • 긍정(positive) / 부정(negative) 정보를 이용한 중의성 해결 규칙 기반 시스템 • 초기 태깅 후 오류를 올바른 태그로 변경하는 변형 규칙 기반 시스템 • 긍정 정보 : 특정 문맥에서 선호되는 어휘 태그에 대한 언어 지식 • ex) [A or B] → A [C or D] • 부정 정보 : 특정 문맥에서 배제되는 어휘 태그에 대한 언어 지식 • ex) A ? B → not C • 수정 정보 : 다른 태깅 방법에 의해 유발된 오류의 교정에 관한 정보 • ex) α : A → B

  12. 장 ∙ 단점 2. 규칙 기반 접근법[2/4] • 장점 • 찾아진 규칙(제한된 영역)에 대해서 높은 정확도를 보임 • 태깅 결과에 대한 설명이 가능 • 단점 • 일관성 있는(예외가 없는) 결정적 규칙을 찾기 어려움 • 새로운 환경에 대한 적응력이 낮음(전문가에 의한 수작업 구축)

  13. Voutilainen의시스템(ENGCG) 2. 규칙 기반 접근법[3/4] • 시스템구성 • Tokenizer(토큰 분리기) • → 단어, 문장 부호 등 구분 • ENGCG 형태소 분석기 • → 단어에 가능한 품사 할당 • ENGCG disambigutor(중의성 해결기) • → 규칙을 이용하여 각 단어의 중의성 제거 • 구문태그 할당기 • → 구문 분석에 사용될 각 단어의 구문 태그 결정 • Finite State 구문 분석기 • → ENGCG에서 제거되지 않은 중의성 해결

  14. Voutilainen의시스템 (계속) 2. 규칙 기반 접근법[4/4] • ENGCG 태거 중의성 해결 과정 • ENGCG disambiguator(중의성 해결기) • → ‘패턴-처리 방법’ 형태의 규칙 사용 • → 문맥이 일치하는 단어에서 부적절한 품사 제거(부정 규칙) • → 중의성 해결이 어려운 단어는 처리 하지 않고 남겨둠(오류 가능성 줄임) • 휴리스틱규칙 • → 휴리스틱 적용 시 전체 정확도는 감소, 중의성 50% 감소 • Finite-State Intersection Grammar • → 구문 분석기가 남은 중의성 처리 그림 5. ENGCG 태거 실험 결과

  15. 특징 3. 통계적 접근법[1/8] • 태깅에 적합한 모델을 정립하고 말뭉치에서 추출된 통계정보를 이용하여 태깅 수행 • 충분한 크기의 태그 부착 말뭉치만 주어지면 통계정보 추출 용이 • → 장점 : 확장성이 좋고 적용 범위가 넓으며 전체적인 정확성이 비교적 높음 • → 단점 : 말뭉치 의존적, 태깅된 말뭉치 필요 • (말뭉치의 양과 질에 따라 시스템 신뢰도에 영향) • 자연언어에 대한 지속적인 연구 → 큰 규모의 다양한 말뭉치 구축됨 • → 통계 자료 부족 문제 완화, 통계적 접근법 선호 • 통계모형 • 은닉 마코프 모형(HMM : Hidden Markov Model) • 최대 엔트로피 모형(MEM : Maximum Entropy Model)

  16. HMM 접근법 3. 통계적 접근법[2/8] • Noisy Channel 모형에 근거한 가정 • 입력단에 태그열(tag sequence) P가 주어지면 출력단에서 단어열 W가 나타남(가정) • 태깅의 목표는 W가 주어졌을 떄 P를 결정하는 것 • - 가장 가능성이 높은 최적의 태그열 P’는다음과 같음 P Noisy Channel W (P = P1P2 … Pn , W = W1W2 … Wn) Wi는 i번째 단어 Pi : Wi의태그(품사) 식 1 식 2

  17. HMM 접근법(계속) 3. 통계적 접근법[3/8] • Pr(W)는 동일한 단어열에 대해서는 항상 같은 값 • 위의 식에서 정확한 Pr(P)를 직접 계산하는 것은 사실상 불가능 • P는 처음부터 끝까지의 품사열, 이런 품사열이 나타나는 확률을 신뢰할 수준으로 • 구하는 것은 불가능 • N-Gram/Markov 가정 도입, 근사치 계산 • 가정 : 현재 품사 태그 발생은 이전의 품사에만 의존 식 3 식 4

  18. HMM 접근법(계속) 3. 통계적 접근법[4/8] • Pr(W|P)도 계산이 어려우므로 다음과 같이 가정하여 근사화한 확률식 사용 • 가정 : 각 단어는 해당 태그에만 의존 • 근사화 과정 도입 식 5 식 6a 식 6b

  19. HMM 접근법(계속) 3. 통계적 접근법[5/8] • 단어열이 길 경우 이들 확률값을 곱한 값이 지나치게 작아지므로 log변환 확률식 사용 식 7b • HMM 접근법에서의 최적 태그열 단어열 길이에 대한 선형시간 내에 구함 • - 동적프로그래밍(Dynamic Programming), Viterbi 알고리즘 적용 시 식 7a

  20. HMM 접근법(계속) 3. 통계적 접근법[6/8] • 문맥 확률과 어휘 확률은 통계자료를 이용한 계산 가능(freq : 말뭉치에서의 출현 빈도) 식 8b 식 8c 식 8a

  21. HMM 접근법(계속) 3. 통계적 접근법[7/8] • HMM 기반품사 태깅 예 • flieslike a flowers • 확률정보는 다음과 같음

  22. HMM 접근법(계속) 3. 통계적 접근법[8/8] P ( flies(N) like(V) a(ART) flower(N) ) A = P(N | )P(V|N)P(ART|V)P(N|ART)  P = A * B = 4.37  10-6 = 0.29  0.43  0.65  1.0 = 0.081 B = P(flies | N)P(like | V)P(a | ART)P(flower | N) = 0.025  0.1  0.36  0.063 = 5.4  10-5 flowers 그림 6. 결정 경로

  23. 특징 4. 복합적 접근법[1/3] • 통계 기반 접근 방법과 규칙 기반 접근 방법을 결합 • 장단점을 상호 보완 → 견고하고 정확성 높은 태깅 시스템 개발 • 단점 : 시스템이 복잡하여 개발에 어려움, 태깅 시간 오래 걸림 • 복합 형태 • 통계적 접근법 적용한 결과에 대해 수정 정보를 이용한 오류 교정하는 방법 • 통계적 접근법과 규칙 기반 접근법 별도 적용 • → 어휘 태깅 결과가 다른 경우 신뢰도가 높은 결과 선호하는 방법 • ex) Tapanainen과 Voutilainen의 시스템

  24. Tapanainen과 Voutilainen의시스템 4. 복합적 접근법[2/3] • 규칙 기반 시스템임 ENGCG와 마코프 모델을 이용한 Xerox 태거(XT) 통합 • 규칙 기반 시스템은 규칙이 사용되는 경우에 한해 높은 정확도로 중의성 제거 • 통계 기반 시스템은 모든 중의성 해결 가능하지만 정확도가 상대적으로 낮음 • 통합 방법 • ENGCG 태거와 XT가 독립적으로 태깅 • 결과 비교(결과 다를 경우 ENGCG 선호) • ENGCG가 처리하지 못한 단어 품사는 XT 결과 선택 • 만약 ENGCG가 2개 이상의 품사로 태깅할 경우 • → XT와 비교하여 하나를 선택하거나 2개 이상의 품사 선택 유지

  25. Tapanainen과 Voutilainen의시스템(계속) 4. 복합적 접근법[3/3] 그림 6. Tapanainen과 Voutilainen의 시스템 태깅 과정 • 두 태거의 품사 집합이 다르므로 통합 • 시 하나의 품사 집합으로 사상 • 통합 방식에 따라 정확도가 • 다르게 나타남 그림 7. Tapanainen과 Voutilainen의 시스템 평가

  26. 특징 5. 한국어 태깅[1/3] • 한국어는 어절의 구성이 복잡 → 어절 단위가 아닌 형태소 단위로 태깅하는 것이 유리 • 형태소 분리와 태그 결정을 함께 고려해야 하므로 서구에 비해 어려움 • 통계 기반 시스템은 모든 중의성 해결 가능하지만 정확도가 상대적으로 낮음 • 형태소의 중의적 분석 • 한국어에서는 다음과 같이 형태서의 개수가 다르게 분석되는 경우 존재 • ex) 마이크로: • 마이크로/NN • 마이크/NN + 로/JO • 통계적접근법의 최종적 확률식은 계산의 실현성을 위해 근사화 • → 실제 확률과 차이, 형태소 경로에 따라 연산 횟수 다르므로 비공정한 비교 결과 • 형태소의 개수를 고려한 정규화 방법 등 고려

  27. Tail-Head 접근법 5. 한국어 태깅[2/3] • 비 공정성 문제 극복 • 어휘 확률은 어절 단위로 처리 • → 형태소의 개수가 다른 경로에 대해 공정한 비교가 이루어질 수 있도록 하기 위함 • 어절 태그는 어휘 중의성 해소 불가 • → 해당 어절과 그 형태소 분석 결과인 형태소열을 사용하여 어휘 확률 평가 • Head, Tail • head : 선행어절과 문맥적으로 관련성이 깊은 어절의 앞 부분 • tail : 후행 어절과 문맥적으로 관련성이 깊은 어절의 뒷 부분 • 인접한 두 어절에서 선행 어절의 tail과 후행 어절의 head가 함께 나타나는 • 통계적 정보(tail-head co-occurrence) 이용하여 문맥 확률 평가 • → 통계자료 부족 문제 완화, 형태소 개수 다른 경우도 연산 횟수 동일

  28. Tail-Head 접근법(계속) 5. 한국어 태깅[3/3] • Noisy Channel 모형에 근거한 가정 • 형태소열 K가 입력단에 주어졌을 때 출력단에서는 어절열(문장)W가 나타남(가정) • n은 W의 실제 어절수, Wi는 i번째 어절, Ki : Wi의형태소 열 중 하나 • W0와 Wn+1은 가상 문장 개방 어절과 종결 어절 • K0와 Kn+1은 가상형태소열 K Noisy Channel W (K = K0K1 … Kn Kn+1, W = W0W1W2 … WnWn +1) 식 9

  29. 결론 6. 결론[1/2] • 어휘 태깅 • 자연어 처리 시스템에서 매우 중요한 역할 • → 사용될 응용 분야에 적합하도록 구축 • 시스템 구축 시 품사 집합의 크기, 미등록어 처리, 학습 방법, 자료 부족 문제 고려 • 규칙 기반 접근법 • 규칙 추출에 많은 노력 필요, 견고하지 못함 • 적용되는 규칙에 대해 높은 신뢰도로 문제 해결 • 통계적 접근법 • 견고하며, 태깅을 위한 정보를 자동으로 추출 • 어휘간의 관계 고려가 힘들며 태깅 결과를 인간이 이해 분석하기 어려움 • 복합적 접근법 • 두 방법의 장점을 취하고 단점을 보완 • 높은 신뢰도와 견고함을 보임

  30. 결론 6. 결론[2/2] • 태깅 시스템의 한계 • 95~99% 높은 정확도 • ex) 99% 정확도의 시스템이라도 100만 어절 코퍼스에 대해 1만 어절 오류 • → 1만 어절후처리를 위해 100만 어절 모두 확인 • 태깅 오류에 대한 효율적인 후처리 방법 연구 필요 • 미등록어 처리 문제, 자료 부족 문제 등 해결해야 할 문제점에 대한 연구 지속

  31. 7. 참고문헌 [1] 김영택 외., “자연언어처리”, 생능출판사, pp.97-111, 2001. [2] 임해창, 임희석, 이상주, 김진동., “자연어 처리를 위한 품사 태깅 시스템의 고찰”, 한국정보과학회 정보과학회지, pp.36-57, 1996.

  32. 8. Q & A Q & A

More Related