指導教授：李琳山博士共同指導：陳信希博士研究生：劉禹吟

中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications 指導教授：李琳山博士共同指導：陳信希博士研究生：劉禹吟

簡介 • 本論文處理的類專有名詞類別包含人名、地名與組織名。 • 類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。 • 語音文件中的類專有名詞辨識： • 在有語音辨識錯誤的語音文件中找出類專有名詞出現處 • 有助於語音摘要、語音問答、和語音對話系統的處理 <ENAMEX TYPE=“LOCATION”>美國</ENAMEX>國務卿 <ENAMEX TYPE=“PERSON”>鮑爾</ENAMEX>在 <ENAMEX TYPE=“LOCATION”>華府外籍記者中心</ENAMEX>表示...

綱要 • 文字文件中類專有名詞辨識 • 語音文件中類專有名詞辨識 • 類專有名詞辨識衍生之應用 • 結論

文字文件中的類專有名詞辨識 類別語言模型法派樹式規則法

文字文件中類專有名詞辨識-類別語言模型法的概念文字文件中類專有名詞辨識-類別語言模型法的概念 • 類別的種類： • 人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別 • 若辭典中有|V| 個詞彙，則總共的類別數有|V|+3個 • 基本概念：給定中文句子S，W為S的可切分詞串，C為W對應的類別，利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對應的最佳類別序列C* 類別前後文模型類別生成模型

類別語言模型法實作演算法 • 對於句子S，執行下列三個步驟： • 建構詞網 • 紀錄各類別候選詞於詞網上，並記錄其生成機率 • 一般詞彙、人名類別、地名類別、組織名類別 • 正向動態規劃(維特比搜尋) • 從句首至句尾對每一個候選詞計算到該位置為止，滿足p(c,w)最大的最佳路徑，紀錄最佳分數及回溯指標 • 反向回溯找出最佳的詞序列及對應的類別序列 • 從句尾中有最高路徑分數的候選詞開始回溯至句首

類別語言模型法討論 • 金門縣長陳水在昨天呼籲兩岸 … • ，陳水在表示… • ，陳水在當初擔任 … • 臺北縣鶯歌鎮的陶瓷… • ，鶯歌有許多賣精美陶瓷的店家… • ，要到鶯歌遊玩的民眾可以搭乘… • 遊戲橘子集團高階人事異動 … • ，對於遊戲橘子跨足研發領域 … • ，遊戲橘子旗下的產品多數是以代理自韓國為主 … • ，遊戲橘子董事長劉柏園表示 … • 類別語言模型法觀察： • 優點： • 將斷詞與類專有名詞辨識合在同一個架構下，具有斷詞解歧異的功能 • 弱點： • 不易取得涵蓋領域夠廣且標註夠一致的訓練語料 • 不容易回收沒有關鍵詞的地名、組織名(九份、中廣) • 需要做內部維特比搜尋的字串將成指數成長 • 一次處理一句，未用到整篇文章所包含的字串資訊 • 新的想法： • 派樹式類專有名詞抽取: • 使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多，使用單純類別語言模型法較難偵測出。

派樹式規則法-派樹式類專有名詞抽取概念 正向派樹：S=今天在總統府Suffix strings:今天在總統府天在總統府在總統府總統府統府府反向派樹：S=府統總在天今Suffix strings:府統總在天今統總在天今總在天今在天今天今今 • 派樹：是一種很有效率的資料結構，在資訊檢索的領域使用很多 • 建構派樹：將處理的文章中每一個語意片段中的後部字串(suffix string) 加入派樹中 • 正向派樹、反向派樹 • 優點：可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文 • 統計值(左右相連詞變異度)可判斷詞的邊界完整性 • 前後文字串可以用來判斷類別 s X:陳水在X1:陳水在X2:在水陳Y:陳水Z:在水反向派樹可以容易地查詢字串的所有前文(LC) 正向派樹可以容易地查詢字串的所有後文(RC) Z Y X2 X1 RC1 RC2 RC3 LC1 LC2 LC3 RC1:陳水在說* RC2:陳水在強調* RC3:陳水在昨天呼籲* LC1:在水陳長縣門金* LC2:在水陳，* LC3:在水陳當*

派樹式規則法-派樹式類專有名詞抽取流程 對整篇文章建構正向及反向派樹 • 內部特徵： • 人名：人名機率是否大過門檻值 • 地名、組織名：內部是否有關鍵詞(隊、鄉) • 外部特徵： • 人名：頭銜、發言動詞 • 地名：重要前後文 • (抵達、飛往，地區、附近、市…) • 組織名：重要前後文 • (大廠、廠商，公司…) • 組合特徵： • 搭配內部及外部特徵對各類別記錄證據分數。(詳述於論文中) 使用字串的前後文變異統計值做抽詞處理派樹中出現頻率>=tf 的字串估計候選字串的邊界完整性繼續判斷候選字串可能的類專有名詞類別檢驗字串內部及外部前後文資訊記錄各類別證據分數 w=馬英 β=九f(w,β)/f(w) < tb? 如果f(w,β)/f(w) >= tb，則 w=馬英可能不是一個邊界完整的詞選擇證據分數最高分且超過門檻值的類別抽取出的類專有名詞槽興農：AORG 兄弟：AORG 天母球場:LOC …

派樹式規則法系統架構 抽取出的類專有名詞槽輸入整篇文章單篇文件派樹式類專有名詞抽取 LOC →{[PER][APER][LOC][ALOC]}*[Content Word]*{LOC_KEY} ORG →{[PER][APER][LOC][ALOC][ORG][AORG]}*[Content Word]* {ORG_KEY} 組成結構及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY…) 斷詞法：後向最大匹配與特性標註一次輸入一個句子 • 中國的中、日本的日等。 • 中美關係，日韓代表，中、韓、日三方。 • SCNE pattern→{SCNE}* {co-occur pattern} • 美總統布希、日相、英首相布萊爾、美代表、以代表 • SCNE title • 美方、日方、美軍、伊軍、中方… • 美重申、美發表、… 斷詞與特性標註類專有名詞重要相關詞彙列表人名機率門檻值限制及邊界判定 (STOP,TITLE, PER_SPOKEN_VERB…) 人名辨識快取類專有名詞槽一般辭典從派樹中查詢整篇文章中是否出現過澳洲、澳門、澳大利亞、澳國，若有，則澳字單獨出現時可能是地名，如：澳代表… 巢狀類專有名詞辨識 LOC →{LOC}* ORG →{ORG}* ORG->LOC ORG 聯合國安理會大陸上海… 類專有名詞的結合單字詞類專有名詞辨識輸出標註類專有名詞的句子

文字文件類專有名詞辨識實驗-測試語料 • 測試語料： • MUC-7(Message Understanding Conference-7)的MET-2(Multilingual Entity Task)測試語料，為大陸簡體字、火箭發射相關新聞共100則 • 類專有名詞統計量 • 評分方法： • 精確率、回收率 • F-測量=(2*精確率*回收率)/(精確率+回收率)

文字文件類專有名詞辨識實驗結果 CED電子辭典派樹式類專有名詞抽取、類專有名詞暗示詞列表、經驗法則訓練語料：大陸人民日報一個月的自動標註類專有名詞新聞訓練語料：台灣雅虎網路新聞8天份，1萬多篇的自動標註新聞 CED電子辭典、已知各類專有名詞列表 • 派樹式規則法表現最好 • 類別語言模型法會受到訓練語言模型優劣影響好壞 • 類別語言模型法只偵測結尾有關鍵詞的巢狀類別結果較好句子中所有子字串都當成可能的巢狀類別候選詞並加入詞網中詞網中只加入結尾有關鍵詞的巢狀類別候選詞

語音文件中的類專有名詞辨識 轉寫文件直接辨認結合關鍵詞辨識可信度分數門檻值限制結合時間與主題同質的類專有名詞匹配

語音文件中類專有名詞辨識-測試語料 • News98 2002年9月份200則語音新聞經由時間同質調適語料做語言模型調適的語音辨識結果 • 音節辨識率較字元辨識率高許多 • 測試語料中類專有名詞統計量

轉寫文件直接類專有名詞辨識實驗結果 類別語言模型法:73.00 派樹式規則法:80.01 當成基礎結果

轉寫文件直接類專有名詞辨識-結果觀察 • 直接辨識的問題： • 將辨識錯誤處當成對的類專有名詞 • 例子：郭塘又缺少運動的婦女… (過糖) • 導致精確率降低 • 辨識錯誤的類專有名詞無法回收 • 例子：立委甚至會帶領… (沈智慧) • 導致回收率降低 `郭’字辨識錯誤… 提出方法：結合關鍵詞辨識可信度分數門檻值 “甚至會” 是辨識錯誤… 提出方法：結合時間與主題同質的類專有名詞匹配 PER:沈智慧 ORG:立法院 …

結合關鍵詞辨識可信度分數門檻值限制 • 語音辨識信心測量，以CM(confidence measure)代表 • 人名： • 當中國人名姓氏或外國人名首字沒有重要前後文一同出現時(頭銜、發言動詞)，可信度必須大過門檻值tkey，才當成可能的候選詞 • 例：(過糖) • 地名、組織名： • 當結尾關鍵詞(市、廠、鄉)可信度大過門檻值tkey 時，才當成可能的候選詞 <s> 郭塘又缺乏運動的婦女 </s> 缺乏運動婦女郭塘結合關鍵詞可信度門檻值限制CM(郭) < tkey?則詞網中不加入此中國人名候選詞郭塘又缺乏運動的婦女直接辨認法:PER 又缺乏運動的婦女如何設定關鍵詞可信度門檻值(tkey)呢？先對可信度分數大小做觀察

最佳輸出結果中每個詞可信度分數計算 • 詞圖(word graph)中節點辨識可信度分數計算： • 詞圖中每一個節點的可信度分數，是將經過該節點的所有路徑事後機率相加而得 • 最佳輸出結果(1-best)的每個詞的可信度分數計算： • 在詞圖中將時間點有重疊且候選詞一樣的節點可信度分數相加得到 • 為了避免在詞圖中找不到對應最佳輸出的路徑，通常會建構較龐大的詞圖 • 詞圖大小與可信度的關係： • 詞圖愈大保留的候選詞就愈多，每個候選詞的路徑機率會被分散掉，使得可信度分數平均而言會變小。

關鍵詞辨識可信度分數門檻值估計-可信度分數排序觀察 (200則開發集) • 辨識正確詞的可信度有10%只在0.01以下 • 可信度值偏小 • 設的可信度門檻值不宜太高

類別語言模型法-結合關鍵詞辨識可信度分數門檻值實驗結果類別語言模型法-結合關鍵詞辨識可信度分數門檻值實驗結果 If CM(W關鍵詞) < tkey，表示可能為辨識錯誤，不當成可能的類專有名詞候選詞繼續處理 • 辨識可信度門檻值設得愈高，表示要求的精確率愈高，然而回收率可能下降 • 加入可信度分數門檻值有可能得到較好的F-測量(73.00 →73.41) • 派樹式規則法在可信度門檻值0.01時也可得到較好的F-測量(80.01 → 80.09)

結合時間與主題同質的類專有名詞匹配(幫助回收率增加)結合時間與主題同質的類專有名詞匹配(幫助回收率增加) 文件No.56相似度0.6 PER 鮑爾 3 ORG 眾議院 2 PER 布希 7 PER 布萊爾 1 LOC 美國 3 文件No.12相似度0.5 LOC 伊拉克 6 PER 布希 3 ORG 參議院 2 … 2002年9月份雅虎奇摩網路新聞，可透過網路抓取 • 使用TF*log(IDF) 計算出語音文件與各篇純文字文件的文件向量相似度 • 找出最相似的前20篇且相似度大於0.2的文字文件美國總統布希間表示… 不惜雖然堅稱… 國務卿鮑爾在眾議院談伊拉克問題 … 時間同質新聞語料庫後端前處理單篇語音文件文字文件類專有名詞辨識器時間與主題同質類專有名詞庫資訊檢索時間同質新聞語料庫及類專有名詞庫每篇文字新聞中的類專有名詞都已經自動抽取出來了。如：文件No.1. PER 陳金鋒 ORG 洛杉磯道奇隊 LOC 美國 … 結合類專有名詞匹配的類專有名詞辨識發音相似度矩陣美國(loc)總統布希(per)間表示… 布希(per)雖然堅稱… 國務卿鮑爾(per)在眾議院(loc)談伊拉克(loc)問題 … 發音辭典錯誤修正後的類專有名詞標註語音文件

文件No.124相似度0.6 PER 鮑爾 3 ORG 眾議院 2 PER 布希 7 LOC 美國 3 文件No.124相似度0.5 LOC 伊拉克 4 ORG 蓋達組織 2 PER 賓拉登 2 PER 布希 3 … 結合時間與主題同質的類專有名詞匹配-類別語言模型法美國總統布希間表示… 不惜雖然堅稱… 國務卿鮑爾在眾議院談伊拉克問題 … 時間與主題同質類專有名詞庫單篇語音文件字元完全匹配音節完全/近似匹配尋找可匹配處匹配到的候選詞做類別生成機率調適匹配處的處理人名類別快取語言模型 percache 地名類別快取語言模型 loccache 組織名類別快取語言模型 orgcache P(鮑爾|percache)=3/15 P(布希|percache)=10/15 P(賓拉登|percache)=2/15 P(美國|loccache)=3/7 P(伊拉|loccache)=4/7 P(眾議院|orgcache)=2/4 P(蓋達組織|orgcache)= 2/4

類別語言模型法結合字元完全匹配及類別生成機率調適實驗結果類別語言模型法結合字元完全匹配及類別生成機率調適實驗結果類別生成機率內插的結果比單純使用任何一種模型要來的好 (λcache= 0.6時最好) 回收率隨著λcache提升

類別語言模型法結合關鍵詞可信度分數門檻值、字元完全匹配及類別生成機率調適實驗結果 (F-測量) 關鍵詞可信度分數門檻值:If CM(W關鍵詞) < tkey,表示可能為辨識錯誤，不當成可能的類專有名詞候選詞繼續處理希望精確率與回收率都能提升 tkey

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (F-測量) 字元完全匹配最好的結果為:λcache=0.6, tkey=0.1F-測量從 73.00→78.42放鬆匹配條件至音節近似匹配時，我們固定λcache=0.6, tkey=0.1，研究字元修正信心分數門檻值tcorrect在不同設定下的結果 tcorrect =0.6時， tsyll_sim=2.0時， F-測量進步到79.50 CM(不惜) < tcorrect 則加入”布希”至詞網

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果 (語音辨識率) 語音字元辨識率也從87.99提升到88.17

類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果觀察類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果觀察音節完全匹配時最好的設定下：類專有名詞F測量: 從73.00 → 79.50 語音字元辨識率: 從87.99 → 88.17

結合時間與主題同質的類專有名詞匹配-派樹式規則法結合時間與主題同質的類專有名詞匹配-派樹式規則法 • 非類別語言模型法的統計式解歧異，因此，以設定快取語言模型的機率門檻值(tcache)作為匹配的限制 <s> <s> 布希不不惜惜雖雖然然堅堅稱稱 </s> </s> 布希音節完全/近似匹配 • 根據匹配特徵限制： • 音節相似度 >= tsyll_sim • CM(不惜) < tcorrect • P(布希|percache) > tcache 最好的設定為：關鍵詞可信度門檻值 tkey = 0.01 快取語言模型門檻值 tcache=0.2 音節近似匹配 tsyll_sim=1.7 字元修正信心分數門檻值 tcorrect=0.6 F-測量： 80.01 → 80.93 語音字元辨識率： 87.99 → 88.16

語音文件中類專有名詞辨識最佳設定結果比較 • 結合關鍵詞可信度分數門檻值及時間與主題同質的類專有名詞匹配 • 關鍵詞可信度分數門檻值→提高精確率 • 時間與主題同質的類專有名詞匹配→提高回收率 • 兩者結合使用可同時提高精確率與回收率 • 類別語言模型法： • tkey = 0.1, λcache= 0.6, tsyll_sim = 2.0, tcorrect= 0.6時， F-測量 73.00→79.50 • 派樹式規則法： • tkey=0.01, tcache = 0.2, tsyll_sim = 1.7, tcorrect = 0.6時,F-測量 80.01→80.93

類專有名詞辨識衍生之應用 自動建立類專有名詞索引之資訊檢索系統網際網路語音問答系統

類專有名詞辨識衍生之應用-自動建立類專有名詞索引之資訊檢索系統類專有名詞辨識衍生之應用-自動建立類專有名詞索引之資訊檢索系統幫助使用者瞭解新聞語料庫中重要的資訊，並提供使用者檢索的詞彙

類專有名詞辨識衍生之應用-網際網路語音問答系統類專有名詞辨識衍生之應用-網際網路語音問答系統將檢索出來的網頁摘要(Snippet)做類專有名詞辨識(選取前N篇) 結合語音輸入、語音合成，以自然語言在網路上做問答，並以類專有名詞辨識淬取出重要的資訊，在未來是一個發展趨勢問問題 Google共檢索出2750篇可用語音合成方式唸出最可能的答案檢索詞重寫 (Query Reformulation) 可能答案排序

結論 • 文字文件中類專有名詞辨識 • 類別語言模型法： • 在有優值語言模型的情形下，解歧異功能最好 • 不容易處理無關鍵詞結尾的巢狀類別 • 派樹式規則法： • 可抽出許多無關鍵詞的類專有名詞 • 在新聞領域測試語料中可以達到很好的效果 • 統計式的類別語言模型法及派樹式規則法各有優劣處 • 語音文件中類專有名詞辨識 • 結合關鍵詞可信度分數門檻值限制及時間與主題同質的類專有名詞匹配可以同時增加精確率與回收率，F-測量可以進步許多 • 做了類專有名詞辨識後的語音文件可以幫助瀏覽、建構索引、實作問答等系統，對於語音摘要也能帶來幫助

謝謝各位

指導教授：李琳山 博士 共同指導：陳信希 博士 研究生：劉禹吟