240 likes | 351 Views
•. Off-line 文字認識 system 의 構成. 文字認識. • Computer 에의 文字入力手段. CTS(computerized type setting 電子組版 ) DTP(desk-top publishing ). • 人類文化遺産의 保存 / 活用 !!!. digital library. ②. ①. ③. 光電變換 裝置. 認識處理 裝置. 出力裝置. ④. 記憶裝置. ① photoelectric converter. 5. raster scan( 走査 ) 에 依한 電壓波形의
E N D
• Off-line 文字認識 system의 構成 文字認識 • Computer에의 文字入力手段 CTS(computerized type setting 電子組版) DTP(desk-top publishing ) •人類文化遺産의 保存/活用!!! digital library ② ① ③ 光電變換 裝置 認識處理 裝置 出力裝置 ④ 記憶裝置 ① photoelectric converter 5 raster scan(走査)에 依한 電壓波形의 時系列(time series) 變換 2D 1D vector(random)scan cf. 飛越走査 interlaced scan(TV)
(charge coupled device ) •光學系(lenz, CCD, image sensor) ITV camera ※ sampling (標本化) quantization(量子化) <scan周期 와 同期> <電壓値> Spatial sampling pitch 適切한 threshold 0.1~0.2mm 電壓에 依해 (128~256dpi) 2値(0.1)로 變換 눈의 分解能(resolution) : 0.09mm sampling rate(guideline) 英文字 : 20*20 / 30*30 漢字 : 40*40 ~ 50*50 ; gothic ~up ; 明朝 筆記文字 : 눈의 分解能水準 ② recognizer OCR 實用化初期 : 專用 H/W로 構成 論理, data의 變更에 어려움 ※ optical character reader
1960年代後半~ computer simulation flexibility, speed 向上, 設計의 容易한 on-line 筆記文字認識 ③ memory reference patten의 重要性 input pattern과의 similarity 計算 ④ output device - - hard copier impact/ nonimpact printing - LP, dot-matrix, typewriter, fax - ink-jet, LBP, xerography, photo -display (soft copier) CRT •認識文字의 單純한 coding 過程 他 機器/사람에 傳達하기 쉬운 形態로 出力
文字 光電變換 segmentation normalization preprocessing reference pattern : 特徵抽出 一致度 計算 認識結果出力 文字認識의 흐름
※ segmentation •規制 frame (box)!! OCR : drop-out color를 利用한 frame使用 image sensor : red 系列 Xerography : blue 系列 印刷文`字 : 水平, 垂直軸으로 投影 筆記文字 : 認識과 同時에 이루어짐 ※ preprocessing & normalization • 位置 • • superposition method의 境遇 特히 重要 • •外廓frame의 中心 또는 重心(L,T ••• ) • -크기 • • 3:1 程度時 正規化必要 • •㓰의 幅을 一定크기로 (橫, 縱方向 크기) • - 廻轉 / 傾斜 • •文字의 主軸을 座標軸 方向과 맞춤 • •縱方向中心軸을 垂直이 되도록 廻轉 • -濃度 • •領域의 平均濃度나, 最大/最小 濃度比 基準으로 • •2値化도 一種의 正規化
線幅 • •量子化時 threshold 값 調整 • • 2値化後 細線化(thinning), 太線化(thickening)處理 前處理 : 雜影, 歪曲 量子化 雜影의 smoothing(平滑化) 汚點, 脫點除去 level 補正(素子의 感度起伏, shading) ※ 特徵抽出및 一致度計算 •濃度特徵 • histogram 必要充分한 sample 点의 數 : 英文字 7*10, 漢字 15*15 •輪廓線特徵 Freeman chain code sampling 直線 •圓弧로 近似 •㓰(stroke)特徵 細線化後 stroke, 端点, 屈曲点, 分岐点, 交叉点 抽出
loop, (convex/concave : 位相情報) M N l i=1 j=1 •背景特徵 •函數展開에 依한 特徵 KL(Karhunen-Loeve)展開, Fourier/Hadamard展開 一致度計算 評價尺度 - 相關値(correlation value) - 類似度(similarity) - 距離 - 論理函數의 眞僞 - 狀態遷移圖 通過與否 相關値 Sl= 類似度 S (p) = = wij Pij M N l Qij Pij Inner product l (Q , P) l i=1 j=1 P P l l Q Q M N 1/2 2 : norm l (Qij) Q = i=1 j=1
※ 認識 recognition error(認識誤謬) false alarm(誤認識率) : 惡性 false reject(棄却/不讀率) 3~10倍 後處理段階에서 一部救濟可能
認識對象 單一字體 多種字體 制限筆記 自由筆記 印刷文字 筆記文字 OCR 常用筆記 on-line筆記文字 特殊文字 : OMR, bar-code, MICR 實用 system의 基準正確度 漢字 數字 英字 •記號 制限筆記 常用筆記 自由筆記 99.99% 99.5% 99% - 約93% 90% - 約98% 95% 筆 記 單一字體 複數字體 多種字體 99.99% 99.9% 99% 99% 97% 95% 99.999% 99.99% 99.9% 活 字
代表的 인 文字認識方法 ① pattern matching method (pattern 整合法) - 類似度法 - 特徵整合法(feature matching method) ② 構造解釋法(structural analysis) - 線構造解析 : 線圖形化法, A-b-S(analysis-by-synlhesis)法 - 輪廓構造解析 : IBM1287 - 背景構造解析 : ③ 統計的方法(statistical approach)等 其他方法 - HMM(hidden Markov model) - ANN(artificial neural network)
• IBM1287 (1967) circle scan方式 : 輪廓과 傾斜抽出 FSS (flying spot scanner)가 圓弧狀 廻轉 : 文字部에서 半徑을 작게 論理回路로 認識 •郵便區分機(address reader/sorter) 線素方向抽出 : 3*3 水平特徵抽出 : 水平方向으로 14~16개로 分割抽出 認識 : 㓰方向 成分으로 組合 state transition diagram 으로 表現 •線圖形化法(line drawing method) thinning chain coding recognition (skeletonization) 文字의 本質的情報는 中心線/骨格線(skeleton) 細線化/骨格化 thinning mark 設計 條件滿足時 ; false stroke 等의 問題 1 1 1 a •b = 0 or 任意 X 0 a Xb 0 0 0
• field effect method 2 8方向 bond(觸手) 閉鎖率의 分布 stroke 性質 : convex( < 4) concave( > 5), 角度, 方向 全體的性質 : 패턴의 크기, 重心, stroke 數 • A-b-S (合成에 依한 分析)에 依한 㓰抽出 input comparison error evaluation pattern generation parameter control output ※ pattern generation modeling이 問題!! <stroke>::= <dot>1<bar>I<complex> <complex>::= <bar><curve>I<curve><bar><curve> <dot>::= isolated point <bar>::= straight stroke <curve> ::= curve stroke •
P M 2101 • • Q 1102 PX2 02 bond의 交點 •elastic matching(彈性整合法) chain code sequence : 脫落, 揷入,置換된 code를 dynamic programming(DP)으로 最適解 reference pattern Input pattern 音聲 : DTW (dynamic time warping) •位相構造化法 背景에서 global feature 背景各 點에서의 線分存在與否(交点) 文字線部에서 local feature loop, 輪廓點(水平, 垂直, 傾斜) code化後 feature matching 背景 左上下右
•最外點 list 法 部分輪廓의 오목/볼록, 重心座標, 길이, 方向 histogram 抽出 標準 feature seguence와의 差 分割點 고무band法(convex hull) • HMM on-line 文字認識
Stylus pen signal cable 1 2 3 特徵 抽出 前處理 正規化 識別 tablet On-line 筆記文字認識 (가) 技術上의 利點 ① 入力文字의 劃數檢出 容易 stylus pen의 上下움직임 ② 各㓰의 形狀을 쉽게 調査可 pen 끝의 軌跡 ③ 各㓰이 쓰여진 順序(書順)를 알 수 있음 短点 㓰의 追加, 脫落, 끊어짐, 가는 글씨, 흘림, 이어쓰기(run-on)에 敏感 (나) user interface로서의 特徵 ① 누구나 訓練없이 使用可能 ② 認識結果가 記入者에 卽時 feedback ③ ② 를 道해 利用者가 system에 쉽게 適應可能
前處理 ◎` • 筆点의 멈춤, 느린 運筆에 依한 餘分 data發生 • (相對 移動量에 依한 sampling) • 손떨림, random noise의 smoothing • (tablet의 resolution原因) - 孤立 data 除去 (不注意 等 原因) • H/W stylus : cableless tablet : 透明化 筆記感(異質感) LCD 倂用으로 入力 •表示一體型 視点秘動이 없음 electronic paper 代表的인 認識手法 ① pattern matching • stroke(㓰)의 位置座標를 特徵으로 •한 stroke를 3~6개의 代表的으로 近似 (始点, 終点, 中間点(1~4))
Q1 •各点의 座標값 •運筆方向角(始•終点) 接線 vector의 方向 Q2 劃數로 category 大分類 +2㓰의 自由度 許容 6 5 4 3 2 1 ② HMM (hidden Markov model) ••••• •劃數 狀態(state)數 • vector code 變數(variables) (8/16 方向)
學習 data 利用 •各變數 의 發生頻度(確率) •狀態遷移 確率 入 = ( A, B, ) 初期狀態確率 ; 높은 認識率 音聲과 類似한 time series! 課題 1. 制約을 없애며 認識率向上 2. human support 機能의 强化 - 誤讀, 判讀拒否時의 原因/理由提示 - 辭典에의 追加登錄機能 - 適應 •學習에 依한 system의 個人化 3. 異質感이 적은 stylus/tablet의 開發 4. gesture에 依한 編輯/校正機能 必要
長時間使用時 認識率低下 . 低速 20~30字/分 用度限定 ① 傳票處理 on-line data entry, on-line billing 情報發生時点入力하여 結果를 얻음 (keyboard 代行) ② 文字/圖形의 混合入力 設計圖面, 地圖等을 interactive 하게 入力 (PLI : paper-like interface) ③ 한글入力 •家庭等에서 少量 data를 가끔 入力 •出力結果 編輯/校正 하는 境遇 (gesture認識)
文字認識應用 system 1. 郵便番號/住所自動判讀機 - 任意의 筆記具 - 住所領域檢出 - format 未知의 入力對象 mechatronics技術의 集合體 sorter(多種多樣한 크기, jam & skew 防止, 종이 搬送裝置) pipeline processing 等 (書信全面高速畵像處理) 2. 産業用 文字認識裝置 - 大部分 印刷文字(製品番號, model No.) - 印刷媒體多樣(종이(box), plastic(IC), 고무(tire), 나무(包裝材), 金屬(鑄物)) - 印刷面(平面, 圓筒形, 球形) 誤讀不許 印刷品質向上, 照明改善, 類似文字廻避 <普通 畵像計測 system의 subsystem>
3. facsimile OCR facere + similus (make+similar) fax + OCR + computer 1) 受信한 scanning signal로 文字認識 2) 畵像情報의 編輯 複數個의 畵像으로부터 部分切斷 合成, 移動, 論理演算 等으로 새로운 畵像을 生成 3) 文字/畵像混在 data의 送受信, 蓄積 •文字•畵像 領域分割 各領域別로 1,2 處理 하여 記憶 •混在形態로 傳送 remote data entry, 情報檢索(IR), telex 等에 利用 G4 fax 4. 文書處理機(document processor) text : 文字列 表 : 線, 칸(column), 文字 圖形 : 幾何學的 圖形, 文字(title 等) image : 寫眞, 畵像 混在한 一般文書對象
text 領域分割後 OCR로 ※ text 領域의 巨視的 特徵 ① 黑畵素 뭉치가 一定 周期로 縱橫方向으로 分布 ② 領域內 線分幅이 一定 ③ 各圖形은 작고 가로세로 比가 1:1에 가깝다. ④ 線圖形으로 보는 경우 複雜한 便이다. ⑤ 大部分 黑白2値다. run length法(①②) 線密度法(④) 濃度分布法(⑤) 連續領域法(①③) 周邊分布法(①) 外點四角frame法(③) 5. OCR handscanner(bar code reader) • PDS(point of sales) system 에서 商品價格, tag判讀 •照明 lamp, lenz, sensor를 一體化(70g程度) 1) 判讀與否는 各줄마다 check digit 檢査 : 삐(beep)!!
2) 手動走査에 依한 幾何學的歪曲에 强한 方式 •紙面과 scanner 間 距離變化 •走査速度의 起伏(7~40 cm/sec) •走査方向의 傾斜 roll(옆질), pitch(앞질), yaw(進路의 不規則性)의 正規化 6. image OCR 混合畵像 文字 認識 畵像 壓縮, 檢索 [JPEG, MPEG] • 實用 system 開發 • 最小 10万~100万 sample必要 • guideline上의 認識率