台語文語料處理技術
This presentation is the property of its rightful owner.
Sponsored Links
1 / 15

台語文語料處理技術 第七章 - 漢語詞性自動標注技術 PowerPoint PPT Presentation


  • 74 Views
  • Uploaded on
  • Presentation posted in: General

台語文語料處理技術 第七章 - 漢語詞性自動標注技術. 吳家慶 P92922002. 漢語詞性自動標注技術. 詞性標注的意義. 原意 : 在給定句子中判定每個詞的語法範疇,確定其詞性 並加以標注。. 更多層意義: 一、為更高層次的自然語言文本加工提供素材。 二、為語言學的研究,提供詳實的資訊。 三、從加工過的文本中獲取詞類及頻度的詞性標注知識。. 漢語詞性自動標注技術. 詞性標注的主要難點. 漢語缺乏詞態變化. 常用詞兼類嚴重. 研究者的主觀意見. 漢語詞性自動標注技術. 認識詞類劃分的目的、標準等存在的分歧. 詞類劃分目的---. 句法分析.

Download Presentation

台語文語料處理技術 第七章 - 漢語詞性自動標注技術

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


4688511

台語文語料處理技術第七章-漢語詞性自動標注技術

吳家慶

P92922002


4688511

漢語詞性自動標注技術

詞性標注的意義

原意:在給定句子中判定每個詞的語法範疇,確定其詞性 並加以標注。

更多層意義:

一、為更高層次的自然語言文本加工提供素材。

二、為語言學的研究,提供詳實的資訊。

三、從加工過的文本中獲取詞類及頻度的詞性標注知識。


4688511

漢語詞性自動標注技術

詞性標注的主要難點

漢語缺乏詞態變化

常用詞兼類嚴重

研究者的主觀意見


4688511

漢語詞性自動標注技術

認識詞類劃分的目的、標準等存在的分歧

詞類劃分目的---

句法分析

詞類劃分標準---

依照語法功能

理想詞類系統---

基本符合語言事實

詞類劃分---目前基本上是根據詞的語法功能來劃分

處理兼類詞---脫離語法功能,加上意義標注。

主觀的限制為違背語言事實,故增加了詞性標注困難。


4688511

漢語詞性自動標注技術

信息處理用現代漢語詞類及標記集

出處: 山西大學於八零年代提出,希望能適用於計算機 處理,以便進行理解、分析詞語,並進行與其他語言間之自動翻譯。


4688511

漢語詞性自動標注技術

信息處理用現代漢語詞類及標記集

內容:

一、詞與分類體系基本架構

(一)基本詞類共十七大類,大類下依需要設各中類及小類。

(見下頁)


4688511

漢語詞性自動標注技術

信息處理用現代漢語詞類及標記集

序號   大類    中類       中類       小類

1    名詞(N) 普通名詞(NG)

          專有名詞(NP)

                   人名(NPF) 姓(NPFF)

名(NPSS)

地名(NPL)

組織名(NPU)

15 助詞(U) 結構助詞(US) 的(USDE)

地(USDI)

得(USDF)

所(USSU)

時態助詞(UT) 了(UTL)

著(UTZ)

過(UTG)

語氣助詞(UY) 用在句末(UYE)

同現語氣詞左部(UYL)

同現語氣詞右部(UYR)


4688511

漢語詞性自動標注技術

信息處理用現代漢語詞類及標記集

(二)為滿足計算處理真實文本需要,除語言學出現之詞類意義外,真實文本可能出現的成分也予考慮。

非基本詞類

1、前接成分(前綴)(H)-阿、老、反、超、自。

2、後接成分(後綴)(K)-子、頭、兒、性、學、論、界。

3、語素(G)-柿、濟、語。

4、非語素字(X)-葡、萄、琵、琶。

5、成語(I)-海市蜃樓…

6、慣用語(L)-總而言之。

7、簡稱略語(J)-專有名詞或常用語。

8、其他(W)-標點符號、非數字符號。


4688511

漢語詞性自動標注技術

信息處理用現代漢語詞類及標記集

二、有關兼類詞問題的處理

(一)單義兼類詞-同音同形詞在不同分布中同義。

(二)多義詞類-同形同音詞在分布不同時辭義不同。

單義兼類詞與多義詞類都可看成是兼類詞。

詞類的活用現象不能看是兼類。


4688511

漢語詞性自動標注技術

語料庫詞類自動標注算法研究

語料庫---存放在計算機裡的原始語料文本或是經加工後帶有語言學信息標注的語料文本。

語料庫詞類自動標注工作是語言信息處理之基礎。

其難處是---兼類詞的排除歧義。

國外---TAAGGIT系統,正確率77%。

CLAWS算法,正確率97%。

VOLSUNGA算法,更趨實用。

國內---漢語詞標注系統,採六種算法,其中VOLSUNGA+RTP

正確率達92%。


4688511

漢語詞性自動標注技術

漢語詞標注系統---利用CLAWS計算

同現概率矩陣建立非兼類詞典、兼類詞典

部分標記的同現機率矩陣

最佳路徑選取(概率乘積最大路徑)

各 地 的 餐廳

USDE

NG

YE

RN NG

USDE

UDEI

YE

時間效率低


4688511

漢語詞性自動標注技術

漢語詞標注系統---VOLSUNGA詞性標注算法

對CLAWS算法進行改進

一、最佳路徑---對任一詞,從左至右,找出通往該詞的最佳路徑,直 至最後。

二、相對標注概率(RTP)---基於語料庫統計,以更定量方式得出每個詞 可能詞類的相對概率。

衛星 內部 只 有

FC D

NG DC VH

NG QNI

準確度提高,克服了CLAWS的時間複雜性,使時間效率提升。


4688511

漢語詞性自動標注技術

基於規則的詞性標注方法

  • 人工集成,建造兼類詞的鑑別規則庫

    • 對自動生成的兼類詞典進行人工處理

    • 按兼類詞搭配關係建造的識別規則庫

    • 按詞語結構獲取規則

  • 機器學習的詞性標注方法

    • 通過機器學習自動獲取規則

    • 測試結果


4688511

漢語詞性自動標注技術

基於規則的詞性標注方法

  • 機器學習的優勢

    • 不需要大量的統計數據表

    • 有助於理解並簡化系統開發


4688511

漢語詞性自動標注技術

1995年韓國漢城環太平洋自然語言處理研討會

IBM

所有問題都可以用統計方法解決

BELL實驗室

統計與直覺--採集分析假設測試

Y.Wilks

統計+直覺 <= 直覺


  • Login