150 likes | 313 Views
台語文語料處理技術 第七章 - 漢語詞性自動標注技術. 吳家慶 P92922002. 漢語詞性自動標注技術. 詞性標注的意義. 原意 : 在給定句子中判定每個詞的語法範疇,確定其詞性 並加以標注。. 更多層意義: 一、為更高層次的自然語言文本加工提供素材。 二、為語言學的研究,提供詳實的資訊。 三、從加工過的文本中獲取詞類及頻度的詞性標注知識。. 漢語詞性自動標注技術. 詞性標注的主要難點. 漢語缺乏詞態變化. 常用詞兼類嚴重. 研究者的主觀意見. 漢語詞性自動標注技術. 認識詞類劃分的目的、標準等存在的分歧. 詞類劃分目的---. 句法分析.
E N D
台語文語料處理技術第七章-漢語詞性自動標注技術台語文語料處理技術第七章-漢語詞性自動標注技術 吳家慶 P92922002
漢語詞性自動標注技術 詞性標注的意義 原意:在給定句子中判定每個詞的語法範疇,確定其詞性 並加以標注。 更多層意義: 一、為更高層次的自然語言文本加工提供素材。 二、為語言學的研究,提供詳實的資訊。 三、從加工過的文本中獲取詞類及頻度的詞性標注知識。
漢語詞性自動標注技術 詞性標注的主要難點 漢語缺乏詞態變化 常用詞兼類嚴重 研究者的主觀意見
漢語詞性自動標注技術 認識詞類劃分的目的、標準等存在的分歧 詞類劃分目的--- 句法分析 詞類劃分標準--- 依照語法功能 理想詞類系統--- 基本符合語言事實 詞類劃分---目前基本上是根據詞的語法功能來劃分 處理兼類詞---脫離語法功能,加上意義標注。 主觀的限制為違背語言事實,故增加了詞性標注困難。
漢語詞性自動標注技術 信息處理用現代漢語詞類及標記集 出處: 山西大學於八零年代提出,希望能適用於計算機 處理,以便進行理解、分析詞語,並進行與其他 語言間之自動翻譯。
漢語詞性自動標注技術 信息處理用現代漢語詞類及標記集 內容: 一、詞與分類體系基本架構 (一)基本詞類共十七大類,大類下依需要設各中類及小類。 (見下頁)
漢語詞性自動標注技術 信息處理用現代漢語詞類及標記集 序號 大類 中類 中類 小類 1 名詞(N) 普通名詞(NG) 專有名詞(NP) 人名(NPF) 姓(NPFF) 名(NPSS) 地名(NPL) 組織名(NPU) 15 助詞(U) 結構助詞(US) 的(USDE) 地(USDI) 得(USDF) 所(USSU) 時態助詞(UT) 了(UTL) 著(UTZ) 過(UTG) 語氣助詞(UY) 用在句末(UYE) 同現語氣詞左部(UYL) 同現語氣詞右部(UYR)
漢語詞性自動標注技術 信息處理用現代漢語詞類及標記集 (二)為滿足計算處理真實文本需要,除語言學出現之詞類意義外,真實文本可能出現的成分也予考慮。 非基本詞類 1、前接成分(前綴)(H)-阿、老、反、超、自。 2、後接成分(後綴)(K)-子、頭、兒、性、學、論、界。 3、語素(G)-柿、濟、語。 4、非語素字(X)-葡、萄、琵、琶。 5、成語(I)-海市蜃樓… 6、慣用語(L)-總而言之。 7、簡稱略語(J)-專有名詞或常用語。 8、其他(W)-標點符號、非數字符號。
漢語詞性自動標注技術 信息處理用現代漢語詞類及標記集 二、有關兼類詞問題的處理 (一)單義兼類詞-同音同形詞在不同分布中同義。 (二)多義詞類-同形同音詞在分布不同時辭義不同。 單義兼類詞與多義詞類都可看成是兼類詞。 詞類的活用現象不能看是兼類。
漢語詞性自動標注技術 語料庫詞類自動標注算法研究 語料庫---存放在計算機裡的原始語料文本或是經加工後帶 有語言學信息標注的語料文本。 語料庫詞類自動標注工作是語言信息處理之基礎。 其難處是---兼類詞的排除歧義。 國外---TAAGGIT系統,正確率77%。 CLAWS算法,正確率97%。 VOLSUNGA算法,更趨實用。 國內---漢語詞標注系統,採六種算法,其中VOLSUNGA+RTP 正確率達92%。
漢語詞性自動標注技術 漢語詞標注系統---利用CLAWS計算 同現概率矩陣建立非兼類詞典、兼類詞典 部分標記的同現機率矩陣 最佳路徑選取(概率乘積最大路徑) 各 地 的 餐廳 USDE NG YE RN NG USDE UDEI YE 時間效率低
漢語詞性自動標注技術 漢語詞標注系統---VOLSUNGA詞性標注算法 對CLAWS算法進行改進 一、最佳路徑---對任一詞,從左至右,找出通往該詞的最佳路徑,直 至最後。 二、相對標注概率(RTP)---基於語料庫統計,以更定量方式得出每個詞 可能詞類的相對概率。 衛星 內部 只 有 FC D NG DC VH NG QNI 準確度提高,克服了CLAWS的時間複雜性,使時間效率提升。
漢語詞性自動標注技術 基於規則的詞性標注方法 • 人工集成,建造兼類詞的鑑別規則庫 • 對自動生成的兼類詞典進行人工處理 • 按兼類詞搭配關係建造的識別規則庫 • 按詞語結構獲取規則 • 機器學習的詞性標注方法 • 通過機器學習自動獲取規則 • 測試結果
漢語詞性自動標注技術 基於規則的詞性標注方法 • 機器學習的優勢 • 不需要大量的統計數據表 • 有助於理解並簡化系統開發
漢語詞性自動標注技術 1995年韓國漢城環太平洋自然語言處理研討會 IBM 所有問題都可以用統計方法解決 BELL 實驗室 統計與直覺--採集分析假設測試 Y.Wilks 統計+直覺 <= 直覺