210 likes | 460 Views
웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010. 황인범 , 이동주 , 연종흠 , 이상구 1 1 서울대학교 컴퓨터공학부 KCC 2010 2010. 6. 30. 서론. 1/2. 자연어 처리에 대한 요구 증대 넓어진 자연어 처리 활용 범위 웹 검색의 색인어 추출 Opinion mining 등 information extraction 연구 및 응용 늘어나는 자연어 데이터 웹을 통해 많은 데이터 생산. 서론. 2/2. 형태소 분석 자연어 처리 과정의 첫 단계
E N D
웹의 협업 환경을 이용한 확장 형태소 사전 관리KCC 2010 황인범, 이동주, 연종흠, 이상구1 1서울대학교 컴퓨터공학부 KCC 2010 2010. 6. 30
서론 1/2 • 자연어 처리에 대한 요구 증대 • 넓어진 자연어 처리 활용 범위 • 웹 검색의 색인어 추출 • Opinion mining 등 information extraction 연구 및 응용 • 늘어나는 자연어 데이터 • 웹을 통해 많은 데이터 생산
서론 2/2 • 형태소 분석 • 자연어 처리 과정의 첫 단계 • 형태소 분석 결과는 이후 과정의 결과에 큰 영향 • 문장에 포함된 단어의 구조 파악 • 한국어 등 교착어에서 중요성 두드러짐 • 어미 및 조사 등에 의해 뚜렷한 형태 변화
관련연구 1/2 • 규칙 기반 형태소 분석 방법 • 대부분 초기 연구 • 강승식, “음절 정보와 복수어 단위 정보를 이용한 한 국어 형태소 분석”, 서울대학교 공학박사 학위 논문, 1993 • 임희석, 윤보현, 임해창, “배제 정보를 이용한 효율적 인 한국어 형태소 분석기”, 한국정보과학회논문지, 1995. • 문법에 따라 미리 정의한 규칙에 의해 형태소 분석 • 많은 탐색 횟수로 인한 시간 복잡도 증가: 비교적 낮은 분석 효율 • 음소 단위 분석 수행 • 규칙에 벗어난 예외 상황 처리가 어려움 • 알고리즘 단계에서 수정 필요
관련연구 2/2 • 사전 기반 형태소 분석 방법 • 처리할 데이터 양이 증가하면서 주목받음 • 양승현, 김영섬, “부분 어절의 기분석에 기반한 고속 한국어 형태소 분석 방법”, 정보과학회논문지, 2000. 3 • 심광섭, 양재형, "인접 조건 검사에 의한 초고속 한글 형태소 분석기", 정보과학회논문지, 2004. 1 • 심광섭, “MADE: 형태소 분석기 개발 환경”, 인터넷정보학회논문지, 2007. 8 • 어절 또는 음절 형태를 사전에 기록(기분석 사전) • 사전 항목 조합을 통해 형태소 분석이 이루어짐 • 음절 단위 분석: 규칙 기반 방법에 비해 연산 횟수 적음 • 성능 향상을 위해 사전 크기를 적절히 유지하여야 함
Motivation 1/1 • 웹에서 생산되는 데이터에는 많고 다양한 오류 존재 • 오타, 잘못된 용법, 신조어등 • 그에 반해, 바른문장을 분석하는 것에 초점을 맞추어 온 기존 형태소 분석 연구 • 많은 오류를 포함한 문장에 대한 활용도 저하 • 자동화 자연어 처리에 부적합 • 오류에 대응하는 방법의 효율성도 평가 기준에 포함되어야 함 • 사전 기반 형태소 분석 방법에 이점: 사전 관리를 통한 분석 품질 유지
꼬꼬마(KKMA) 1/5 • http://kkma.snu.ac.kr • 한글 형태소 분석기와 분석 품질 관리 체계 • 다양한 자연어 처리 연구에서 용이하게 사용 가능 • 공개 소프트웨어: 소스코드 분석 및 수정 용이 • Java 라이브러리 형태: 높은 코드 이식성
꼬꼬마(KKMA) 2/5 • 인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법 (심광섭, 양재형, 2005)에 기반 • 사전 기반 형태소 분석 • 확장 형태소 사전 사용 • 우수한 분석 성능 • 높은 정확도: 99.2% • 기존 연구들에 비해 빠른 분석 속도
알고리즘 3/5 NN VV ETN JKC VA EFN • 음절 단위 분석으로 분석 후보 생성 • 각 음절 사이에 형태소가 구분될 수 있는지 판정 • 형태소의 결합 조건 사용 • 간단한 동적 프로그래밍으로 구현 • 확률 모델을 이용한 최적 분석 후보 선택
결합조건 4/5 • 품사 결합 조건 • 형태소의 왼쪽에 결합 가능한 품사들 • E.g. 조사의 왼쪽에 체언이 결합 • 음운 결합 조건 • 형태소와 결합하기 위해 만족해야 할 특정 음운 조건 • 한국어의 음운적 특성 반영 • E.g. ~아라: 양성 결합 (보아라), ~어라: 음성 결합 (숨어라) • 형태 결합 조건 • 음소 단위 결합이 이루어지는 형태소를 나타내기 위한 조건 • E.g. 감사합니다: 감사하+ㅂ니다
확장 형태소 사전 5/5 • 단어의 모든 활용 형태를 항목으로 저장 • 포함 내용 • 표제어 • 분석 결과 • 결합 조건
사전 관리를 통한 분석 품질 유지 1/7 • 패키지 프로그램 형태 개발은 형태소 분석기 개발에 부적합 • 긴 개발 주기: 언어의 변화 주기에 비해 김 • 언어 변화에 따른 품질 관리에 어려움 • 사전 중심 형태소 분석 • 형태소 분석기 성능이 사전 품질에 의존 • 지속적 사전 관리로 다양한 오류 및 예외 상황에 대처 가능 • 형태소 분석기에 적합한 개발 환경 구축 필요
Open Knowledge 2/7 • 웹 기반 협업 사전 관리 시스템 구현 • 형태소 분석기 개발자 및 사용자들이 협업적으로 사전 데이터를 개선 및 정제 • Open API 및 웹 기반 사전 관리 프로그램 제공 • 집단 지성을 사전 관리에서 발현시키고자 한 첫 시도
Open API 3/7 • Search • 사전 항목 검색
Open API 4/7 • Create • 사전 항목 생성
Open API 5/7 • Analyze • 웹을 통한 형태소 분석
Open API 6/7
형태소 분석기 개발 환경 7/7 • 관련 연구 • 심광섭, “MADE: 형태소 분석기 개발 환경”, 인터넷정보학회논문지, 2007. 8 • 인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법에 기반 • 사전 관리를 통해 형태소 분석 결과 보정 • 적용 영역에 적합한 형태소 사전 제작 가능 • 분석할 데이터 양이 많은 경우, 적용 영역이 다르더라도 대체로 비슷한 오류에 대응해야 할 것 • 협업적 사전 관리를 통해 관리 효율 향상 가능
성능 검증 1/1 오류 적음 오류 많음 • 웹에서 얻은 검증 데이터 • 오류가 포함된 웹 문서 특성 반영 • Edit distance를 이용한 성능 평가 • 정확도 = (전체 형태소 수 - edit distance) / 전체 형태소 수 • 띄어쓰기 보정을 고려한 성능 평가가 이루어져야 하기 때문에 기존 어절 내 형태소 재현율(Recall)에 의한 평가는 알맞지 않음
결론 1/2 • 공개된 형태소 분석기 구현 • 협업 환경에서 사전 내용을 수정하여 분석 품질 유지 • 웹 기반 사전 관리 도구와 Open API 제공 • 많은 연구 및 응용에서 유용하게 활용할 수 있을 것으로 기대 • 라이브러리 형태로 쉽게 사용 가능 • 지속적 유지보수로 정확도 높은 분석 결과를 얻을 수 있음
향후 연구 방향 2/2 • 형태소 분석기 평가 방법 재고 • 기존에는 분석 후보의 재현율(Recall)로 분석 품질 평가 • 분석 후보 개수가 많은 경우에 신뢰도 저하 • 분석 정확도를 판단하는 명확한 기준 수립 필요 • 변화하는 언어 사용 양상을 반영하는 표본 필요 • 주기적 Test set 검증 및 보정