1 / 22

2008 년 7 월 24 일

2008 년 7 월 24 일. 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필. 목차. 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델 별 비교 NAICE N ews A rticle I nformation C lassification E ngine 결론. “ 자동 (?)” 문서분류시스템. http://news.google.com/news?ned=kr.

megara
Download Presentation

2008 년 7 월 24 일

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2008년 7월 24일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필

  2. 목차 • 문서분류시스템의 예시와 정의 • 자동문서분류시스템의 구조 • 문서분류 모델 및 알고리즘의 종류 • 문서분류 모델 별 정확도 실험결과 • 실험결과에 대한 단상 • 세 가지 분류모델 별 비교 • NAICE • News Article Information Classification Engine • 결론

  3. “자동(?)” 문서분류시스템 • http://news.google.com/news?ned=kr

  4. “수동(!)” 문서분류시스템 • http://news.naver.com/

  5. “수동(!)” 문서분류시스템 • http://kr.dir.yahoo.com/

  6. 신문기사 자동분류시스템 [이데일리 SPN 김은구기자] “(법원에) 선처를 해달라는 취지의 서류를 작성해줄 수 있는 시기는 지났다. 이제는 법원의 판결만 기다리겠다.” 탤런트송일국 측이 폭행혐의로 송일국을 고소했다가 오히려 무고혐의로 불구속 기소된 프리랜서 기자 김모씨에 대해 강경 대응 입장을 밝혔다. 18일 오후 김씨가 기자회견을 열고 자신의 억울함을 호소하며 항고할 뜻을 밝힌 데 따른 것이다. 송일국의 법정대리인인 이재만 변호사는 17일 이번 사건에 대한 검찰의 수사결과를 발표하며 “민사소송은 계속 진행하겠지만 무고에 대해서는 김씨가 반성하고 사과한다면 선처해 달라는 취지의 서류를 작성해줄 수 있다”고 밝혔다. 그러나 김씨가 기자회견을 통해 “송일국 측은 사과를 하면 탄원서를 써주겠다고 했지만 나 혼자만의 명예가 걸려있는 일이 아니다”며 항고와 재판으로 정면 돌파하겠다는 뜻을 드러냈다. 이에 대해 이재만 변호사는 이데일리 SPN과 가진 전화통화에서 “김씨가 기자회견장에 상해 1주일 진단서를 갖고 나왔다는데 1주일 상해 진단서는 본인 진술로 통증을 호소하면 끊을 수 있는 것이다. 그 사람의 몸에 상처가 있다는 증거일 뿐이지 폭행에 의해 생겼다는 증거는 아니다”고 주장했다. 이어 이재만 변호사는 “김씨는 또 부러진 이 외에 세 개의 치아가 치근파절됐다고 했는데 앞니가 송일국의 팔에 부닥쳤다면서 어떻게 양 턱쪽 치근파절이 될 수 있나”라고 덧붙였다. 김씨는 인터뷰를 요청하는 과정에서 자신을 뿌리치려는 송일국의 팔에 맞아 부상을 당했다며 형사고소를 했으며 검찰수사에서 송일국은 무혐의 처분을 받았고 김씨는 무고혐의로 불구속 기소됐다. 연예? 사회/법원,검찰? 사회/사건,사고?

  7. 자동문서분류시스템 구조 • 일반적인 형태의 문서분류시스템 문서집합 전처리 (정제처리) 색인 (키워드 추출) 성능평가 분류 알고리즘 적용 자질선택 (중요한 키워드 선별) 학습과정 (Learning Process)

  8. 문서분류 모델 및 알고리즘의 종류 • Naïve Bayes • Simple, cheap, linear classifier; quite effective • K Nearest Neighbor classification • Simple, expensive at test time, high variance, non-linear • Rocchio vector space classification (centroids) • Simple, linear classifier; too simple • Decision Trees • Pick out hyperboxes; nonlinear; use just a few features • Support Vector Machines • Currently hip; linear or nonlinear (kernelized); effective at handling high dimensional spaces; very effective

  9. 문서분류 모델 별 정확도 실험결과(1/3) • Dumais et al. 1998: Reuters - Accuracy

  10. 문서분류 모델 별 정확도 실험결과(2/3) • SVM Classifiers (Joachims)

  11. 문서분류 모델 별 정확도 실험결과(3/3) • SVM Classifiers vs. Others (Yang&Liu)

  12. 실험결과에 대한 단상 • 영어자료에 대한 자동분류 (다양한 검증자료) • 한글자료에 대한 자동분류 (검증자료가 부족) • 실무 적용 시에 고려해야 할 요건 • 학습 속도 • 분류 속도 • 튜닝 가능 여부 • 온라인 학습 기능 • 특정 색인집합 Boosting 기능

  13. 세가지 분류모델 별 비교 – 학습 속도 KNN > NB >>>> SVM • KNN은 단순히 검색엔진에 문서를 적재하는 속도와 동일 • NB는 적재와 함께 확률계산에 시간이 좀더 소요 • SVM은 최적화(Optimization)에 엄청나게 시간이 많이 소요 • 대용량 학습문서(기가바이트 단위)에 대한 분류학습 시도가 없었음.

  14. 세가지 분류모델 별 비교 – 튜닝 NB > SVM = KNN • NB는 각 주요단어에 대한 확률값(가중치) 조작이 용이함 • SVM과 KNN은 이러한 튜닝 작업이 쉽지 않음 • 온라인 학습 기능은 세가지 모델 모두 구현 가능 • 그러나 SVM의 온라인 학습기능은 현재 연구단계임

  15. 세가지 분류모델 별 비교 – 분류속도 NB > SVM >>>> KNN • KNN의 분류과정은 (검색 + 문서유사도측정)임 • NB의 분류속도가 가장 빠름 • SVM은 기본적으로 이진분류모델이므로 다중분류속도가 느림

  16. NAICE (KISTI 기사분류시스템) • News Article Information Classification Environment 특정 분야에 국한되지 않은 범용 문서분류기

  17. NAICE (KISTI 기사분류시스템) • 특징 • 다양한 형태의 문서분류성능 최적화 기능 제공 • 자질추출기능 • 최적화 도구 제공 • 빠른 문서분류속도 (한글문서 1건(1Kbyte) 당 평균 0.02초) • Naïve Bayesian (NB), K-Nearest Neighbor (KNN) 분류모델 동시 제공 • 다국어 문서분류기능 • 한글  한국어 형태소분석기 • 영어  Lemmatization (원형복원기), 품사태거

  18. NAICE (KISTI 기사분류시스템) • 분류 정확도 (4,571건)

  19. NAICE (KISTI 기사분류시스템) • http://www.kristalinfo.com/K-Lab/NAICE/ • 학습문서 • 조선일보 신문기사 • 규모 • 건수 : 225,997 건 • 분야 : 1,001분야 • http://www.kristalinfo.com/K-Lab/NAICE/get_class_list.php

  20. 성능향상을 위한 부가작업 • 기존 분류체계에 대한 정비 및 정제 작업이 필요 • 유사 분류체계 통합 및 광의 분류체계 세분화 작업 • 분류체계별 학습 집합의 정규화 • 현재 특정 분류체계 내에 존재하는 기사 건수가 지나치게 많거나 적음. 따라서 이들 차이를 최소화시키는 작업 필요 • 분야별 핵심키워드사전 구축 • 각 분야별 분류정확도를 세부적으로 측정하여 정확도가 지나치게 낮은 분야에 대한 성능튜닝 작업 수행 (예: 특정 분류에서 매우 중요하고 빈번하게 발생하는 핵심 키워드 사전 구축 및 이를 분류기에 반영)

  21. 결론 • 분류모델의 장단점이나 성능비교에 의한 문서분류엔진 선택은 문제의 소지가 있음 • 적용될 특정 도메인의 요구사항분석에 기반한 개발 및 도입이 필수 • NAICE • 영역독립적인 문서분류 프레임워크에 기반한 “실시간” 신문기사 자동 분류 시스템 • 유연성과 효율성을 극대화한 시스템 • 주변 응용도구개발이 필요 • 지속적인 학습문서 적용 필요 • 온라인 학습 기능 필요

  22. 감사합니다!

More Related