1 / 9

OCR 에러에 강인한 한글 단어 검색

OCR 에러에 강인한 한글 단어 검색. 전북대학교 컴퓨터과학과 안재철 , 오일석 jcan@cs.chonbuk.ac.kr isoh@moak.chonbuk.ac.kr. 2001. 11. 3. 1. 서론. 연구 동기 디지털 라이브러리 구축 기존의 방대한 양의 문서 입력 필수 키보드 입력 작업  신속성 , 정확성의 한계 OCR 소프트웨어의 사용 자동 입력의 장점 오인식 문제로 인한 검색 성능 저하 오인식 허용 검색 방법의 필요성 부각 연구 내용

kele
Download Presentation

OCR 에러에 강인한 한글 단어 검색

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. OCR 에러에 강인한 한글 단어 검색 전북대학교 컴퓨터과학과 안재철, 오일석 jcan@cs.chonbuk.ac.kr isoh@moak.chonbuk.ac.kr 2001. 11. 3

  2. 1. 서론 • 연구 동기 • 디지털 라이브러리 구축 • 기존의 방대한 양의 문서 입력 필수 • 키보드 입력 작업  신속성, 정확성의 한계 • OCR 소프트웨어의 사용 • 자동 입력의 장점 • 오인식 문제로 인한 검색 성능 저하 • 오인식 허용 검색 방법의 필요성 부각 • 연구 내용 • OCR 소프트웨어의 오류 유형과 빈도를 나타내는 혼동 행렬의 구성 방안 • OCR로 인식된 문서에서 질의어에 대한 오인식 단어 검색 방법

  3. 시스템 전체 구성도 • 검색 시스템의 전체 구성 Printed Document 데이터 베이스 서버Confusion matrixmatrix 스캐너 문자인식 소프트웨어 Query, Threshold DB구축 시스템 Image Data Base Retrieval Text Data Base 질의어에 적합한 문서

  4. 3. 자모 단위의 혼동 행렬 • 혼동행렬(Confusion matrix)의 구성 • 정보과학회 논문지(1996-1997) 초록 535건을 이용 • Kisti 원문 서비스에서 원문 영상을 받아 인식 요 약 본 논문에서는 기존의 분산 트랜잭션 처리 시스템에서 발생되는 교착 상태 탐지의 문제점을 지적하고, 교착 상태 문제를 근본적으로 해결하기 위해 분산 사이클 탐지를 기반으로 하는 새로운 병행 제 어 기법을 제시하였다. 이와 같은 병행 제어 기법의 문제 점과 해결 방안을 기술하였고, 분산 교착 상태 탐 지 방식을 이용하여 자원을 사용하는 트랜잭션 사이에 순차성을 보장하였다. 또한 시뮬레이션을 통해 기존 의 2- 단계 로킹 기법과 새로운 병행 제어 기법의 성능을 비교하였다. 요 익 본 논문에서는 기존의 분간 드랜잭션 처리 시스템에서 밭생되◎ 교탁 상태 탐시치 뭍제점을 지적하고, 교착 상태 문제를 관본적으로 해결하기 위해 분산 사이클 탐지를 기반으로 하는 새로운 떵행 제 어 기법을 제시하였다 이와 같◎ 병행 제어 기법의 문제점과 해결 방안을 기 글하였고, 분산 교팍 강태 탈 지 방식을 이용하여 자원을 사응하는 트랜잭견 사이에 순차성을 보장하였다 77한 시뮬레이션을 퉁해 기졸 의 」-단계 로킹 기법과 새로운 병행 제어 기법의 성능을 비교하였다.

  5. 3. 자모 단위의 혼동 행렬 • 사실자료와 인식자료를 한자씩 비교하여 혼동 행렬을 구성 • 자모별 혼동 행렬 구성 • 2350자 완성형 혼동 행렬 구성 • 첫째 행(column) : 사실 자료의 초성 • 첫째 열(row) : 인식 자료의 초성 • 문자 인식 시스템의 혼동 확률 • A : 사실 자료의 초성 • B : 인식 자료의 초성 [초성 혼동 행렬]

  6. 4. 단어 검색의 활용 • 오류-허용 단어 검색 알고리즘 • 혼동 행렬을 이용 질의어 : “다가동” 텍스트 : “…전주천을 끼고 있는 나가돔은 예로부터…” Q=<q1,q2,…,qk> = <(a1,b1,c1),(a2,b2,c2),…,(ak,bk,ck)> < 다, 가, 동 > = <(ㄷ,ㅏ,_),(ㄱ,ㅏ,_),(ㄷ,ㅗ,ㅇ)> q1은 질의어의 한 문자 : a1,b1,c1 T=<t1, t2,…., tk> = <(x1,y1,z1),(x2,y2,z2),…,(xk,yk,zk)> < 나, 가, 동 > = <(ㄴ,ㅏ,_),(ㄱ,ㅏ,_),(ㄷ,ㅗ,ㅁ)> t1는 목적단어의 한 문자 : x1,y1,z1 • Q and T is successfully matched if p(Q|T) > Thres(사용자 정의)

  7. 5. 검색 성능의 측정 • 단어 검색 실험 • 정보과학회 논문지 6편(Kordic 원문 정보 서비스에서 다운) • 질의어로 10개의 단어를 임의 선정 • 3가지 방법을 이용한 검색 성능의 측정 • Method1 : 자모별 혼동 행렬( 초성, 중성, 종성 혼동 행렬 ) • Method2 : 완성형 혼동 행렬( 2350 Ⅹ 2350 혼동 행렬 ) • Method3 : 완전 매칭 • 임계 값은 7부터 0.1 까지 0.1씩 감소하면서 성능 평가( 임계값 = 0.006 일때의 재현률과 정확률 ) • Method1 : 정확률 : 99.25( 0.75↓)% 재현률 : 83.34(12.1↑)% • Method2 : 정확률 : 85.73(14.27↓)% 재현률 : 84.28(13.01↓)% • Method3 : 정확률 : 100% 재현률 : 71.27%

  8. 5. 검색 성능의 측정 • Thres에 따른 세부 검색 성능 • Method1 : 자모별 혼동 행렬( 초성, 중성, 종성 혼동 행렬 ) • Method2 : 완성형 혼동 행렬( 2350 Ⅹ 2350 혼동 행렬 ) • Method3 : 완전 매칭

  9. 결론 • 혼동 행렬을 이용한 오류-허용 검색 알고리즘 제안 • 오류 형태를 통한 인식 혼동 행렬의 구성 • 오인식 정보를 적절히 이용하기 위해 Bayes 정리를 이용 • 디지털 라이브러리 구축을 위한 계기 마련 • 향후 연구 과제 • 2-gram 방법을 이용한 문서 검색 • 웹 서비스를 위한 디지털 라이브러리의 구축

More Related