1 / 21

웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010. 황인범 , 이동주 , 연종흠 , 이상구 1 1 서울대학교 컴퓨터공학부 KCC 2010 2010. 6. 30. 서론. 1/2. 자연어 처리에 대한 요구 증대 넓어진 자연어 처리 활용 범위 웹 검색의 색인어 추출 Opinion mining 등 information extraction 연구 및 응용 늘어나는 자연어 데이터 웹을 통해 많은 데이터 생산. 서론. 2/2. 형태소 분석 자연어 처리 과정의 첫 단계

masako
Download Presentation

웹의 협업 환경을 이용한 확장 형태소 사전 관리 KCC 2010

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 웹의 협업 환경을 이용한 확장 형태소 사전 관리KCC 2010 황인범, 이동주, 연종흠, 이상구1 1서울대학교 컴퓨터공학부 KCC 2010 2010. 6. 30

  2. 서론 1/2 • 자연어 처리에 대한 요구 증대 • 넓어진 자연어 처리 활용 범위 • 웹 검색의 색인어 추출 • Opinion mining 등 information extraction 연구 및 응용 • 늘어나는 자연어 데이터 • 웹을 통해 많은 데이터 생산

  3. 서론 2/2 • 형태소 분석 • 자연어 처리 과정의 첫 단계 • 형태소 분석 결과는 이후 과정의 결과에 큰 영향 • 문장에 포함된 단어의 구조 파악 • 한국어 등 교착어에서 중요성 두드러짐 • 어미 및 조사 등에 의해 뚜렷한 형태 변화

  4. 관련연구 1/2 • 규칙 기반 형태소 분석 방법 • 대부분 초기 연구 • 강승식, “음절 정보와 복수어 단위 정보를 이용한 한 국어 형태소 분석”, 서울대학교 공학박사 학위 논문, 1993 • 임희석, 윤보현, 임해창, “배제 정보를 이용한 효율적 인 한국어 형태소 분석기”, 한국정보과학회논문지, 1995. • 문법에 따라 미리 정의한 규칙에 의해 형태소 분석 • 많은 탐색 횟수로 인한 시간 복잡도 증가: 비교적 낮은 분석 효율 • 음소 단위 분석 수행 • 규칙에 벗어난 예외 상황 처리가 어려움 • 알고리즘 단계에서 수정 필요

  5. 관련연구 2/2 • 사전 기반 형태소 분석 방법 • 처리할 데이터 양이 증가하면서 주목받음 • 양승현, 김영섬, “부분 어절의 기분석에 기반한 고속 한국어 형태소 분석 방법”, 정보과학회논문지, 2000. 3 • 심광섭, 양재형, "인접 조건 검사에 의한 초고속 한글 형태소 분석기", 정보과학회논문지, 2004. 1 • 심광섭, “MADE: 형태소 분석기 개발 환경”, 인터넷정보학회논문지, 2007. 8 • 어절 또는 음절 형태를 사전에 기록(기분석 사전) • 사전 항목 조합을 통해 형태소 분석이 이루어짐 • 음절 단위 분석: 규칙 기반 방법에 비해 연산 횟수 적음 • 성능 향상을 위해 사전 크기를 적절히 유지하여야 함

  6. Motivation 1/1 • 웹에서 생산되는 데이터에는 많고 다양한 오류 존재 • 오타, 잘못된 용법, 신조어등 • 그에 반해, 바른문장을 분석하는 것에 초점을 맞추어 온 기존 형태소 분석 연구 • 많은 오류를 포함한 문장에 대한 활용도 저하 • 자동화 자연어 처리에 부적합 • 오류에 대응하는 방법의 효율성도 평가 기준에 포함되어야 함 • 사전 기반 형태소 분석 방법에 이점: 사전 관리를 통한 분석 품질 유지

  7. 꼬꼬마(KKMA) 1/5 • http://kkma.snu.ac.kr • 한글 형태소 분석기와 분석 품질 관리 체계 • 다양한 자연어 처리 연구에서 용이하게 사용 가능 • 공개 소프트웨어: 소스코드 분석 및 수정 용이 • Java 라이브러리 형태: 높은 코드 이식성

  8. 꼬꼬마(KKMA) 2/5 • 인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법 (심광섭, 양재형, 2005)에 기반 • 사전 기반 형태소 분석 • 확장 형태소 사전 사용 • 우수한 분석 성능 • 높은 정확도: 99.2% • 기존 연구들에 비해 빠른 분석 속도

  9. 알고리즘 3/5 NN VV ETN JKC VA EFN • 음절 단위 분석으로 분석 후보 생성 • 각 음절 사이에 형태소가 구분될 수 있는지 판정 • 형태소의 결합 조건 사용 • 간단한 동적 프로그래밍으로 구현 • 확률 모델을 이용한 최적 분석 후보 선택

  10. 결합조건 4/5 • 품사 결합 조건 • 형태소의 왼쪽에 결합 가능한 품사들 • E.g. 조사의 왼쪽에 체언이 결합 • 음운 결합 조건 • 형태소와 결합하기 위해 만족해야 할 특정 음운 조건 • 한국어의 음운적 특성 반영 • E.g. ~아라: 양성 결합 (보아라), ~어라: 음성 결합 (숨어라) • 형태 결합 조건 • 음소 단위 결합이 이루어지는 형태소를 나타내기 위한 조건 • E.g. 감사합니다: 감사하+ㅂ니다

  11. 확장 형태소 사전 5/5 • 단어의 모든 활용 형태를 항목으로 저장 • 포함 내용 • 표제어 • 분석 결과 • 결합 조건

  12. 사전 관리를 통한 분석 품질 유지 1/7 • 패키지 프로그램 형태 개발은 형태소 분석기 개발에 부적합 • 긴 개발 주기: 언어의 변화 주기에 비해 김 • 언어 변화에 따른 품질 관리에 어려움 • 사전 중심 형태소 분석 • 형태소 분석기 성능이 사전 품질에 의존 • 지속적 사전 관리로 다양한 오류 및 예외 상황에 대처 가능 • 형태소 분석기에 적합한 개발 환경 구축 필요

  13. Open Knowledge 2/7 • 웹 기반 협업 사전 관리 시스템 구현 • 형태소 분석기 개발자 및 사용자들이 협업적으로 사전 데이터를 개선 및 정제 • Open API 및 웹 기반 사전 관리 프로그램 제공 • 집단 지성을 사전 관리에서 발현시키고자 한 첫 시도

  14. Open API 3/7 • Search • 사전 항목 검색

  15. Open API 4/7 • Create • 사전 항목 생성

  16. Open API 5/7 • Analyze • 웹을 통한 형태소 분석

  17. Open API 6/7

  18. 형태소 분석기 개발 환경 7/7 • 관련 연구 • 심광섭, “MADE: 형태소 분석기 개발 환경”, 인터넷정보학회논문지, 2007. 8 • 인접 조건 검사에 의한 초고속 한국어 형태소 분석 방법에 기반 • 사전 관리를 통해 형태소 분석 결과 보정 • 적용 영역에 적합한 형태소 사전 제작 가능 • 분석할 데이터 양이 많은 경우, 적용 영역이 다르더라도 대체로 비슷한 오류에 대응해야 할 것 • 협업적 사전 관리를 통해 관리 효율 향상 가능

  19. 성능 검증 1/1 오류 적음 오류 많음 • 웹에서 얻은 검증 데이터 • 오류가 포함된 웹 문서 특성 반영 • Edit distance를 이용한 성능 평가 • 정확도 = (전체 형태소 수 - edit distance) / 전체 형태소 수 • 띄어쓰기 보정을 고려한 성능 평가가 이루어져야 하기 때문에 기존 어절 내 형태소 재현율(Recall)에 의한 평가는 알맞지 않음

  20. 결론 1/2 • 공개된 형태소 분석기 구현 • 협업 환경에서 사전 내용을 수정하여 분석 품질 유지 • 웹 기반 사전 관리 도구와 Open API 제공 • 많은 연구 및 응용에서 유용하게 활용할 수 있을 것으로 기대 • 라이브러리 형태로 쉽게 사용 가능 • 지속적 유지보수로 정확도 높은 분석 결과를 얻을 수 있음

  21. 향후 연구 방향 2/2 • 형태소 분석기 평가 방법 재고 • 기존에는 분석 후보의 재현율(Recall)로 분석 품질 평가 • 분석 후보 개수가 많은 경우에 신뢰도 저하 • 분석 정확도를 판단하는 명확한 기준 수립 필요 • 변화하는 언어 사용 양상을 반영하는 표본 필요 • 주기적 Test set 검증 및 보정

More Related