slide1
Download
Skip this Video
Download Presentation
《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

Loading in 2 Seconds...

play fullscreen
1 / 23

《 漢語文本短語結構的人工標注 》 語料庫的加工與應用 - PowerPoint PPT Presentation


  • 107 Views
  • Uploaded on

《 漢語文本短語結構的人工標注 》 語料庫的加工與應用. R95944030 吳育奇. Outline. 前言 語料的加工 分詞與詞性標注 短語標注 語料的應用 結論. 前言. 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點 自動詞法  自動句法 利用詞法成果 提供自動句法基礎 如何實現語言的計算機自動理解 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等. 前言. 遇到的問題 錯誤率:分析系統缺少足夠的知識庫 把人對自然語言句法分析用型式符號標注 對 100 萬字的語料庫進行加工 : 分詞及詞性標注

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用' - shiro


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

《漢語文本短語結構的人工標注》語料庫的加工與應用《漢語文本短語結構的人工標注》語料庫的加工與應用

R95944030

吳育奇

outline
Outline
  • 前言
  • 語料的加工
    • 分詞與詞性標注
    • 短語標注
  • 語料的應用
  • 結論
slide3
前言
  • 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點
  • 自動詞法  自動句法 利用詞法成果 提供自動句法基礎
  • 如何實現語言的計算機自動理解
  • 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等
slide4
前言
  • 遇到的問題
    • 錯誤率:分析系統缺少足夠的知識庫
  • 把人對自然語言句法分析用型式符號標注
  • 對100萬字的語料庫進行加工:
    • 分詞及詞性標注
      • 用已有的做些加工及修改
    • 標注短語結構
      • 人工標注
slide5
語料的加工
  • 分詞及詞性標注
    • 對純文本語料進行分詞及詞性標注
  • 切分單位
    • 詞定義有些模糊不清的地方
      • 偏正結構(雞蛋、鴨蛋)
      • 動賓結構(打球、理髮、出丑)
      • 動補結構(證明、看見、放大)
    • 基本上參考採用“北大加工規範”
slide6
語料的加工
  • 詞性標記
    • 現有詞性標注集
    • 27大類
    • 有些分類細
    • 有些分類粗
slide7
語料的加工
  • 自定標注集
    • 標注細一點,因

沒詞典做支撐

    • 適當吸收現代漢

語研究結果來做

分類

slide8
語料的加工
  • 23個大類,用英文字母表示,有11個大類下面有小類,有一個小類下面有小小類

ex ︰n 名詞 nr 人名 nrx 姓 nrm 名

  • 可以查得粗,也可查得細,視研究的需要,ex︰配合《現代漢語語法信息詞典》來做模糊找查
  • 一共有86個標記符號
slide9
語料的加工
  • 與”北大加工規範”不同之處︰
    • 時間詞(nt)、處所詞(ns)放在名詞大類下面,如果要單一查某類,可用小類標記符號查尋
    • 區別詞(ab)放在形容詞大類中
    • 五種語素標記法,顛倒字母次序,方便找查

Ng Vg Ag Dg Tg  gN gV gA gD gT

    • 去掉名動詞vn、名形詞an、副動詞vd、副形詞ad
    • 在10個大類中設立了10個其他的小類,記做~g
slide10
語料的加工
  • 切分標注具體說明
  • 加標注符號 :“ / ”
  • 對”北大加工規範” 及”分詞規範”做些調整
  • 分詞規範
    • 加名詞性分詞單位應為分單位:非金屬、超聲波
      • 非 超 為區別詞  非/ab 金屬/ng 超/ab聲波/ng
    • 漢語數位詞分別為分詞單位
      • 五千三百零二 五/mx 千/mw 三/mx 百/mw 零/um 二/mx
    • 經常使用副詞作用的詞組為分詞單位
      • 不得不  不/dn 得/vu 不/dn
slide11
語料的加工
  • 對”北大加工規範”做的介紹及調整
    • 人名:nr 姓與名都分開 nrx nrm
      • 不易或不知道姓與名就記作nr
      • 王/nr建民/nr  王/nrx 建民/nrm
      • 大衛‧歐提茲/nr 大衛/nrm‧/w歐提茲/nrx
    • 地名:nd 長的國名要考慮切割
      • 中華人民共和國/nd ﹛中華/ab 人民/ng 共和國/ng﹜nd
      • 只有在行政區名稱是單音節且前面成分也是單音節為一切分單位:{台北/nd市/n}nd 台州/nd 長江/nd etc
slide12
語料的加工
  • 對”北大加工規範”做的介紹及調整
    • 團體組織 : nj “外交部” “國務院”為普通名詞
      • 外交部/ng [美國/nd國務院/ng ] nj
    • 其他專有名詞 : nz 只有當前面是單音節且兩者緊密結合才不切 滿人/nz 漢人/nz
    • 數詞量詞 : 1 阿拉伯數字不切分 123.4/m

2 基數序數應切分

3 零不是一般係數詞 有點像助詞 : um

4 ”左右“”成千”為概數詞 ma

5 ”一些”應該需再切分 否則會被誤解

slide13
語料的加工
  • 對”北大加工規範”做的介紹及調整
    • 動詞加動詞或動詞加形容詞構成的述補結構
      • “v + 得/不 + x”應統一加以切分 : 來不及/v  來/v 不/d 及/v
    • 有些成語或慣用語結構不那麼緊密也應有切分
    • AAB重疊型 : 為一切分單位
      • 雙音節離合動詞的AAB
        • 洗洗澡/v 揮揮手/v
      • 單音節動詞的重疊式加“看”
        • 試試看/v 唸唸看/v
slide14
語料的加工
  • 短語標注
  • 前人的短語標注與樹庫建立
    • Lancaster-Leeds
    • Penn
  • 英語樹庫加工目的
    • 提供一些具體服務(翻譯 檢索 索引等)
  • 方法及特點
    • 人機互助(人注-機注-人校) 朝機器自動化發展
slide15
語料的加工
  • 現有漢語短語句法標記集描述
    • 兼顧了準短語組合、句子及句子類型
    • 包含了詞短語句子句群之間絕大多數單位
slide16
語料的加工
  • 漢語短語結構三個要解決的問題
    • 現代漢語短語的界定問題
    • 結構層次和結構關係的識別問題
    • 排歧問題
  • 漢語詞組基本結構類型
    • 主謂結構 : 樹枝黃了
    • 述賓結構 : 喝了三杯酒
    • 定中結構 : 大紅燈籠
    • 狀中結構 : 快跑 明天見
    • 等等等
slide17
語料的加工
  • 標注出短語的結構層次、關係、功能
  • 短語標記(樹庫加工第一階段):

EX:主謂短語

結構標記:zw

功能標記:jp

[zw 紅軍/ng [ db 撤出/vs 台北/nd ] vp ] jp

slide18
語料的加工
  • 句子標記(樹庫加工第二階段):

Ex:單句

功能標記:dj

[zv [zw 他 [db 是 學生] vp ] jp 嗎 ? ] dj

一般句子不用 只有再遇到一些複雜的句子才使用

slide19
語料的加工
  • 特殊標記:
    • 易位成分標記 : 先對易位成分做短語標記 “{i}” ,”{} i”

他終於來了,匆匆地

[zv [zw 他 [zz 終於 [zz {i} [sb 來了] vp ] vp ] vp ] jp,{ [zc 匆匆地 ] dp } i.] dj

    • 省略成分標記 : “{o}” “{ } o”

稀不稀奇  [lh 稀 {o} [zz 不 稀 {奇} o ] ap ]ap

    • 強調成分標記 : “q” “{ } q”

我是昨天到的台北

[zv [zw 我 {是}q [zz 昨天 [db 到 {的} q 台北 ] vp ] vp ] jp . ] dj

slide20
語料的應用
  • 短語定界研究
  • “名詞+動詞”
    • 從上海來到了北京 : 上海來到
    • [zz [jc 從/pf 上海/nd ] pp [db 來到/vz了/ut 北京/nd ] vp ] vp。/w
    • 慘無人道的精神折磨 : 精神折磨
    • [dz 慘無人道/i 的/us [dz 精神/ng 折磨/vs] np ] np
    • 因為”上海來到”中間有“ ]pp”和“[ db ”顯然不同一個結構中
    • “精神折磨”中間沒這樣的標記 所以為同一結構
slide21
語料的應用
  • 句法結構關係研究
    • 我的主意已經拿定
    • [dz [zc 我/rp 的/us ] np 主意/ng ] np [ zz 已經/dt 拿定/vs ] vp。/w
    • 可集中精力某些關鍵的結構關係
    • 如上例是 定中+狀中
  • 句法結構功能研究
    • 跟上例一樣可做結構功能的分析研究
    • 找出某特定結構功能句子
slide22
語料的應用
  • 可用數據庫的方式讓研究更方便
  • 紀錄結構關係 功能類型 及前後項等
  • [ fw [ zw 消息/ng 發布/vs ]jp 後/f ] tp
slide23
結論
  • 《漢語文本短語結構的人工標注》語料庫的加工是進行信息處理奠定基礎的工作
  • 語料庫本身需要對漢語知識有較全面的把握
  • 所以才有研究加工的工作,加工完成後才能進入更全面深入的研究
ad