150 likes | 405 Views
自然輸入法簡介. 許聞廉 中央研究院資訊所. 設計自然輸入法的緣起. 1982 年 IBM PC 問世,淘汰了傳統打字機 在西方語系國家,連幼稚園的孩童都能輕鬆打字 中文如果還停留在「拆字」的「專業」輸入法,將被淘汰 「音」的輸入最為自然(想打、聽打、看打),因為我們無時無刻不在「音」的薰陶之下 1989 年回到中央研究院之後,就開始研究「自動選字」的注音輸入法 我的背景:數學, Operations Research, Computer Science, Natural Language Processing. 二十年前的中文輸入. 傳統的注音輸入── 五步曲
E N D
自然輸入法簡介 許聞廉 中央研究院資訊所
設計自然輸入法的緣起 • 1982年IBM PC問世,淘汰了傳統打字機 • 在西方語系國家,連幼稚園的孩童都能輕鬆打字 • 中文如果還停留在「拆字」的「專業」輸入法,將被淘汰 • 「音」的輸入最為自然(想打、聽打、看打),因為我們無時無刻不在「音」的薰陶之下 • 1989年回到中央研究院之後,就開始研究「自動選字」的注音輸入法 • 我的背景:數學,Operations Research, Computer Science, Natural Language Processing
二十年前的中文輸入 • 傳統的注音輸入──五步曲 • 看稿、 看鍵盤、看螢幕、看鍵盤、看螢幕、 看稿 • 電腦上的外國人 • 一個國家的生產力有很大一部份取決於communication的便利性(如:交通,快遞,會議紀錄,報告撰寫) • 能想像面對電腦還需要『翻譯』嗎? • 「自動選字」的智慧型注音輸入法
自然語言的處理 ── 範例 • 同音字的選取 台 北 市 一 位 小 孩 走 失 了 台 北 市 小 孩 台 北 適 宜 走 失 事 宜 一 位 一 味 移 位
自然輸入法的創意 • 人名、地址、時間混和自動辨識 • 例子:住在忠孝東路五段的李中校很武斷 • 自動學習『有所為,有所不為』 • 自動選字正確率極高 • 許氏鍵盤將中打與英打合而為一 • 可依使用者喜好更改注音 『強強滾』可注音為ㄑㄧ尢ˇ ㄑㄧ尢ˇ ㄍㄨㄣˋ • 符號輸入簡單方便 • 輔助辭典自動轉成略語
「自然輸入法」的一個重要貢獻─ 許氏鍵盤 • 將42個注音符號對應到26個英文字母 • 每個音節打完之後,系統會自動顯示正確注音 • 十分鐘就可以學會 • 中打、英打合而為一 • 使用一個月之後就能將英打的速度轉移到中打上(反之亦然) • 打字速度可以提昇50%以上 • 不用到第四排的數字鍵
字音 ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄒㄖㄗㄙㄝㄞㄟㄡㄣㄧ BPMFDTNLGKHJCRZSEIAONE 字形 ㄑㄚㄠㄢㄤㄥㄦㄨㄩ VYWMKLLXU 對應 ㄓㄔㄕㄘ JVCA 手順 ˙ˊˇㄜㄛˋ SDFGHJ 「許氏鍵盤」配置圖
自然輸入法安裝方式 1. The main installation file going2003_XP.exe 2. The serial # you will need it during the installation (just cut and paste it) • 自然輸入法2003 (GOING V7.0) 中央研究院授權序號 • 授權名稱(ID):中央研究院全體授權00003 • 授權序號(SN):VL-30hv50Qq6b • (For English OS) 中央研究院授權序號 • 授權名稱(ID):SINICA_00207 • 授權序號(SN):VL-L3wO20tWQs 3. The voice file voice70.exe: after the main installation is complete, install this so that you can hear what you type.
練習題 • 今 天 天 氣 真 好,歡 迎 大 家 來 此 訪 問 • jen tem tem vej jn hwf , hxm eld dyj jey lid af fkf xnj • 我 父 親 剛 從 台 北 飛 到 舊 金 山 • xhf fxj ven gk axld tid baf fa dwj jeoj jen cm • 他 打 算 在 這 裡 待 一 個 月 • ty dyf sxlj zij jgj lef di e ggs uej
拆字、拼音輸入法的差異(一) • 「拆字」輸入法 • 同碼字少,選字率低,但記憶困難 • 「拼音」輸入法 • 同音字多,但是由於小學的訓練以及日常的使用(我們要將一段中文字年唸出來是毫不費力的),幾乎完全不需學習,也不易遺忘。 • 傳統的注音輸入──五步曲 • 看稿、 看鍵盤、看螢幕、看鍵盤、看螢幕、 看稿 • 「自動選字」的智慧型注音輸入法
拆字、拼音輸入法的差異(二) • 注音輸入與倉頡的比較: • 基本假設:注音輸入自動辨認正確率夠高
注音與英文輸入的比較 • 英文的Word相當於中文的「詞」 • 中文「詞」的長度平均約為兩個字(註:有許多常用的單字詞),打一個詞平均約需 6.2鍵。 • 英文word的長度約為5個字母。再加上空格鍵,每個word約需 6鍵。 • 因此,純粹以擊鍵數而言,兩者不相上下。 (如果考慮事後的修改:中文電腦會辨認錯誤;英文字母會打錯)