태 깅

태 깅 발표 : 김종환

전체구성 • Introduction • 규칙 기반 접근법(Rule-based Approach) • 통계적접근법(Statistical Approach) • 복합적접근법(HybridApproach) • 한국어태깅 • 결론 • 참고문헌 • Q & A

태깅(tagging) 필요성 태깅이란? 1. Introduction[1/8] • 자연언어는 어휘, 구문, 의미 수준의 본질적인 중의성(ambiguity) 포함 • 원시말뭉치(rawcorpus) 사용 시정확한 언어정보 추출 어려움 • → 부가적 언어 정보(tag) 부착 • 언어의 중의성을 해소하기 위해서 부가적인 언어 정보를 부착하는 작업 • - 어휘 태깅(lexicaltagging), 구문 태깅(syntactic tagging), 의미태깅(semantic tagging)

태깅의 종류 1. Introduction[2/8] • 어휘 태깅 • 품사 부착 작업 → 품사 태깅(part-of-speech tagging)이라고함 • - 한국어 어휘 태깅 : 일반적으로 형태소 식별 후 형태소 단위 태그 부착 Energetic/JJ and/CC concrete/JJ action/NN has/VBZ been/VBN taken/VBN in/IN Colombia/NNP during/IN the/DT past/JJ 60/CD days/NNS against/IN the/DT mafiosi/NNS of/IN the/DT drug/NN trade/NN ,/, but/CC it/PRP has/VBZ not/RB been/VBN sufficiently/RB effective/JJ ,/, because/RB ,/, unfortunately/RB ,/, it/PRP came/VBD too/RB late/JJ ./. 그림 1. 품사 태깅의 예

태깅의 종류(계속) 1. Introduction[3/8] • 구문 태깅 • 트리 형태로 구문에 관련된 언어 정보 부착(트리 태깅 또는 bracketing) • 의미태깅 • 중의성 있는 어휘에 대해 그 의미 부류를 태그로 부착(sensetagging) ( (S (NP-SBJ-1 The censorship) (VP is (VP enforced (NP *-1) (PP-MNR through (NP terrorism and assassination)))) .)) Energetic and concrete <wf cmd=arb lemma=action wnsn=5>action</wf> has been <wf cmd=done lemma=take wnsn=1>taken</wf> in <wf cmd=done lemma=Colombia wnsn=place>Colombia </wf> during the past… 그림 2. 구문 태깅의 예 그림 3. 의미 태깅의 예

어휘 태깅 연구 1. Introduction[4/8] • 자연언어처리에서 태깅은 대부분 어휘 태깅(품사 태깅, 형태소 태깅)을 지칭 • 1980년대 영어권 중심 발달 (한국어 1990년대 본격적 연구 시작) • 기계번역, 기계 이해, 정보 검색, 말뭉치 가공 등 여러 분야에서 어휘 태거 사용 • 최근 대부분의 태거의 95% 이상의 정확성을 보임

어휘 태깅 시 고려 사항 1. Introduction[5/8] • 품사 집합(Part-of-Speech Tag Set) 결정 문제 • 세분화된품사 집합 사용 : 중의성 증가, 태깅 후 자세한 정보 추출 가능 • 세분화 되지 않은 품사 집합 사용 : 비교적 정확한 품사 태깅 가능, 추출 정보 제한적 ex) ‘큰’ - 세분화된 품사 집합(중의성 문제 발생, 자세한 태깅 정보) ‘크 + ㄴ’ 자동사 + 과거시제어미 ‘크 + ㄴ’ 형용사 + 현재시제어미 - 덜 세분화된 품사 집합(중의성 문제 없음, 제한적 정보) ‘크 + ㄴ’ 용언 + 어미 그림 4. 품사 집합 결정 예

어휘 태깅 시 고려 사항(계속) 1. Introduction[6/8] • 미등록어(Unknown Word) 처리 문제 • 정의 : 태깅 시스템이나 형태소 분석기에서 사용하는 사전에 등록되지 않은 단어 • 미등록어 후보 추출 후 사람이 편집하여 사전에 등록하여 사용 • → 효과적인 처리지만 비용이 많이 듬 • - 실시간 처리 시스템에서는 미등록어 처리 기능이 내장되어 있어야 함 • 자료 부족(Data Sparseness) 문제 • 정의 : 사전에는 정보가 구축되어 있으나 이에 관련된 통계정보를 코퍼스로부터 • 추출할 수 없거나, 적은 빈도로 존재하여 추출된 통계정보의 신뢰도가 낮을 때 • 원인 : 학습 코퍼스가 다양한 언어 현상을 모두 반영하지 못하기 때문 • 해결방법 • → 자료 부족 문제를 해결할 방법(smoothing)을 구축 • → 대량의 균형 있는 코퍼스(balanced corpus) 사용

어휘 태깅 시 고려 사항(계속) 1. Introduction[7/8] • 학습방법 결정 • Unsupervised Learning(자율 학습) • → 원시 코퍼스에서 직접 추출하여 태깅 시스템 학습 • Supervised Learning(지도 학습) • → 태깅된 코퍼스에서 통계 정보나 규칙 정보 추출하여 태깅 시스템 학습 • - 지도 학습이 높은 정확률을 보이나 태깅된 코퍼스를 구축해야 하는 어려움이 따름 • 응용분야에 적합한 설계 • 특정 응용분야에 적합한 설계 필요(Domain Knowledge 활용) • 한국어 품사 태깅 시 단위 결정 • 영어와 달리 한국어는 어절이 ‘실질형태소+형식형태소’로 구성(교착어) • 어절단위 태깅 또는 형태소 단위 태깅

어휘태깅에 대한 연구 접근 방법 1. Introduction[8/8] • 규칙 기반 접근법(Rule-based Appoach) • 자연어에 적용되는 공통된 원리나 결정적인 규칙을 찾아서 사용 • 통계적접근법(Statistical Approach) • 원시 또는 태깅된 말뭉치에서 추출된 통계 정보를 이용하여 태깅 수행 • 복합적접근법(Hybrid Approach) • - 위 두 방법의 장단점 보완

규칙 기반 접근 방법 언어 정보 2. 규칙 기반 접근법[1/4] • 언어 정보를 생성 규칙의 형태로 표현하고 이를 적용하여 태깅 • 시스템 분류 • 긍정(positive) / 부정(negative) 정보를 이용한 중의성 해결 규칙 기반 시스템 • 초기 태깅 후 오류를 올바른 태그로 변경하는 변형 규칙 기반 시스템 • 긍정 정보 : 특정 문맥에서 선호되는 어휘 태그에 대한 언어 지식 • ex) [A or B] → A [C or D] • 부정 정보 : 특정 문맥에서 배제되는 어휘 태그에 대한 언어 지식 • ex) A ? B → not C • 수정 정보 : 다른 태깅 방법에 의해 유발된 오류의 교정에 관한 정보 • ex) α : A → B

장 ∙ 단점 2. 규칙 기반 접근법[2/4] • 장점 • 찾아진 규칙(제한된 영역)에 대해서 높은 정확도를 보임 • 태깅 결과에 대한 설명이 가능 • 단점 • 일관성 있는(예외가 없는) 결정적 규칙을 찾기 어려움 • 새로운 환경에 대한 적응력이 낮음(전문가에 의한 수작업 구축)

Voutilainen의시스템(ENGCG) 2. 규칙 기반 접근법[3/4] • 시스템구성 • Tokenizer(토큰 분리기) • → 단어, 문장 부호 등 구분 • ENGCG 형태소 분석기 • → 단어에 가능한 품사 할당 • ENGCG disambigutor(중의성 해결기) • → 규칙을 이용하여 각 단어의 중의성 제거 • 구문태그 할당기 • → 구문 분석에 사용될 각 단어의 구문 태그 결정 • Finite State 구문 분석기 • → ENGCG에서 제거되지 않은 중의성 해결

Voutilainen의시스템 (계속) 2. 규칙 기반 접근법[4/4] • ENGCG 태거 중의성 해결 과정 • ENGCG disambiguator(중의성 해결기) • → ‘패턴-처리 방법’ 형태의 규칙 사용 • → 문맥이 일치하는 단어에서 부적절한 품사 제거(부정 규칙) • → 중의성 해결이 어려운 단어는 처리 하지 않고 남겨둠(오류 가능성 줄임) • 휴리스틱규칙 • → 휴리스틱 적용 시 전체 정확도는 감소, 중의성 50% 감소 • Finite-State Intersection Grammar • → 구문 분석기가 남은 중의성 처리 그림 5. ENGCG 태거 실험 결과

특징 3. 통계적 접근법[1/8] • 태깅에 적합한 모델을 정립하고 말뭉치에서 추출된 통계정보를 이용하여 태깅 수행 • 충분한 크기의 태그 부착 말뭉치만 주어지면 통계정보 추출 용이 • → 장점 : 확장성이 좋고 적용 범위가 넓으며 전체적인 정확성이 비교적 높음 • → 단점 : 말뭉치 의존적, 태깅된 말뭉치 필요 • (말뭉치의 양과 질에 따라 시스템 신뢰도에 영향) • 자연언어에 대한 지속적인 연구 → 큰 규모의 다양한 말뭉치 구축됨 • → 통계 자료 부족 문제 완화, 통계적 접근법 선호 • 통계모형 • 은닉 마코프 모형(HMM : Hidden Markov Model) • 최대 엔트로피 모형(MEM : Maximum Entropy Model)

HMM 접근법 3. 통계적 접근법[2/8] • Noisy Channel 모형에 근거한 가정 • 입력단에 태그열(tag sequence) P가 주어지면 출력단에서 단어열 W가 나타남(가정) • 태깅의 목표는 W가 주어졌을 떄 P를 결정하는 것 • - 가장 가능성이 높은 최적의 태그열 P’는다음과 같음 P Noisy Channel W (P = P1P2 … Pn , W = W1W2 … Wn) Wi는 i번째 단어 Pi : Wi의태그(품사) 식 1 식 2

HMM 접근법(계속) 3. 통계적 접근법[3/8] • Pr(W)는 동일한 단어열에 대해서는 항상 같은 값 • 위의 식에서 정확한 Pr(P)를 직접 계산하는 것은 사실상 불가능 • P는 처음부터 끝까지의 품사열, 이런 품사열이 나타나는 확률을 신뢰할 수준으로 • 구하는 것은 불가능 • N-Gram/Markov 가정 도입, 근사치 계산 • 가정 : 현재 품사 태그 발생은 이전의 품사에만 의존 식 3 식 4

HMM 접근법(계속) 3. 통계적 접근법[4/8] • Pr(W|P)도 계산이 어려우므로 다음과 같이 가정하여 근사화한 확률식 사용 • 가정 : 각 단어는 해당 태그에만 의존 • 근사화 과정 도입 식 5 식 6a 식 6b

HMM 접근법(계속) 3. 통계적 접근법[5/8] • 단어열이 길 경우 이들 확률값을 곱한 값이 지나치게 작아지므로 log변환 확률식 사용 식 7b • HMM 접근법에서의 최적 태그열 단어열 길이에 대한 선형시간 내에 구함 • - 동적프로그래밍(Dynamic Programming), Viterbi 알고리즘 적용 시 식 7a

HMM 접근법(계속) 3. 통계적 접근법[6/8] • 문맥 확률과 어휘 확률은 통계자료를 이용한 계산 가능(freq : 말뭉치에서의 출현 빈도) 식 8b 식 8c 식 8a

HMM 접근법(계속) 3. 통계적 접근법[7/8] • HMM 기반품사 태깅 예 • flieslike a flowers • 확률정보는 다음과 같음

특징 4. 복합적 접근법[1/3] • 통계 기반 접근 방법과 규칙 기반 접근 방법을 결합 • 장단점을 상호 보완 → 견고하고 정확성 높은 태깅 시스템 개발 • 단점 : 시스템이 복잡하여 개발에 어려움, 태깅 시간 오래 걸림 • 복합 형태 • 통계적 접근법 적용한 결과에 대해 수정 정보를 이용한 오류 교정하는 방법 • 통계적 접근법과 규칙 기반 접근법 별도 적용 • → 어휘 태깅 결과가 다른 경우 신뢰도가 높은 결과 선호하는 방법 • ex) Tapanainen과 Voutilainen의 시스템

Tapanainen과 Voutilainen의시스템 4. 복합적 접근법[2/3] • 규칙 기반 시스템임 ENGCG와 마코프 모델을 이용한 Xerox 태거(XT) 통합 • 규칙 기반 시스템은 규칙이 사용되는 경우에 한해 높은 정확도로 중의성 제거 • 통계 기반 시스템은 모든 중의성 해결 가능하지만 정확도가 상대적으로 낮음 • 통합 방법 • ENGCG 태거와 XT가 독립적으로 태깅 • 결과 비교(결과 다를 경우 ENGCG 선호) • ENGCG가 처리하지 못한 단어 품사는 XT 결과 선택 • 만약 ENGCG가 2개 이상의 품사로 태깅할 경우 • → XT와 비교하여 하나를 선택하거나 2개 이상의 품사 선택 유지

Tapanainen과 Voutilainen의시스템(계속) 4. 복합적 접근법[3/3] 그림 6. Tapanainen과 Voutilainen의 시스템 태깅 과정 • 두 태거의 품사 집합이 다르므로 통합 • 시 하나의 품사 집합으로 사상 • 통합 방식에 따라 정확도가 • 다르게 나타남 그림 7. Tapanainen과 Voutilainen의 시스템 평가

특징 5. 한국어 태깅[1/3] • 한국어는 어절의 구성이 복잡 → 어절 단위가 아닌 형태소 단위로 태깅하는 것이 유리 • 형태소 분리와 태그 결정을 함께 고려해야 하므로 서구에 비해 어려움 • 통계 기반 시스템은 모든 중의성 해결 가능하지만 정확도가 상대적으로 낮음 • 형태소의 중의적 분석 • 한국어에서는 다음과 같이 형태서의 개수가 다르게 분석되는 경우 존재 • ex) 마이크로: • 마이크로/NN • 마이크/NN + 로/JO • 통계적접근법의 최종적 확률식은 계산의 실현성을 위해 근사화 • → 실제 확률과 차이, 형태소 경로에 따라 연산 횟수 다르므로 비공정한 비교 결과 • 형태소의 개수를 고려한 정규화 방법 등 고려

Tail-Head 접근법 5. 한국어 태깅[2/3] • 비 공정성 문제 극복 • 어휘 확률은 어절 단위로 처리 • → 형태소의 개수가 다른 경로에 대해 공정한 비교가 이루어질 수 있도록 하기 위함 • 어절 태그는 어휘 중의성 해소 불가 • → 해당 어절과 그 형태소 분석 결과인 형태소열을 사용하여 어휘 확률 평가 • Head, Tail • head : 선행어절과 문맥적으로 관련성이 깊은 어절의 앞 부분 • tail : 후행 어절과 문맥적으로 관련성이 깊은 어절의 뒷 부분 • 인접한 두 어절에서 선행 어절의 tail과 후행 어절의 head가 함께 나타나는 • 통계적 정보(tail-head co-occurrence) 이용하여 문맥 확률 평가 • → 통계자료 부족 문제 완화, 형태소 개수 다른 경우도 연산 횟수 동일

Tail-Head 접근법(계속) 5. 한국어 태깅[3/3] • Noisy Channel 모형에 근거한 가정 • 형태소열 K가 입력단에 주어졌을 때 출력단에서는 어절열(문장)W가 나타남(가정) • n은 W의 실제 어절수, Wi는 i번째 어절, Ki : Wi의형태소 열 중 하나 • W0와 Wn+1은 가상 문장 개방 어절과 종결 어절 • K0와 Kn+1은 가상형태소열 K Noisy Channel W (K = K0K1 … Kn Kn+1, W = W0W1W2 … WnWn +1) 식 9

결론 6. 결론[1/2] • 어휘 태깅 • 자연어 처리 시스템에서 매우 중요한 역할 • → 사용될 응용 분야에 적합하도록 구축 • 시스템 구축 시 품사 집합의 크기, 미등록어 처리, 학습 방법, 자료 부족 문제 고려 • 규칙 기반 접근법 • 규칙 추출에 많은 노력 필요, 견고하지 못함 • 적용되는 규칙에 대해 높은 신뢰도로 문제 해결 • 통계적 접근법 • 견고하며, 태깅을 위한 정보를 자동으로 추출 • 어휘간의 관계 고려가 힘들며 태깅 결과를 인간이 이해 분석하기 어려움 • 복합적 접근법 • 두 방법의 장점을 취하고 단점을 보완 • 높은 신뢰도와 견고함을 보임

결론 6. 결론[2/2] • 태깅 시스템의 한계 • 95~99% 높은 정확도 • ex) 99% 정확도의 시스템이라도 100만 어절 코퍼스에 대해 1만 어절 오류 • → 1만 어절후처리를 위해 100만 어절 모두 확인 • 태깅 오류에 대한 효율적인 후처리 방법 연구 필요 • 미등록어 처리 문제, 자료 부족 문제 등 해결해야 할 문제점에 대한 연구 지속

7. 참고문헌 [1] 김영택 외., “자연언어처리”, 생능출판사, pp.97-111, 2001. [2] 임해창, 임희석, 이상주, 김진동., “자연어 처리를 위한 품사 태깅 시스템의 고찰”, 한국정보과학회 정보과학회지, pp.36-57, 1996.

8. Q & A Q & A

태 깅

태 깅

Presentation Transcript