1 / 23

《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

《 漢語文本短語結構的人工標注 》 語料庫的加工與應用. R95944030 吳育奇. Outline. 前言 語料的加工 分詞與詞性標注 短語標注 語料的應用 結論. 前言. 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點 自動詞法  自動句法 利用詞法成果 提供自動句法基礎 如何實現語言的計算機自動理解 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等. 前言. 遇到的問題 錯誤率:分析系統缺少足夠的知識庫 把人對自然語言句法分析用型式符號標注 對 100 萬字的語料庫進行加工 : 分詞及詞性標注

shiro
Download Presentation

《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 《漢語文本短語結構的人工標注》語料庫的加工與應用《漢語文本短語結構的人工標注》語料庫的加工與應用 R95944030 吳育奇

  2. Outline • 前言 • 語料的加工 • 分詞與詞性標注 • 短語標注 • 語料的應用 • 結論

  3. 前言 • 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點 • 自動詞法  自動句法 利用詞法成果 提供自動句法基礎 • 如何實現語言的計算機自動理解 • 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等

  4. 前言 • 遇到的問題 • 錯誤率:分析系統缺少足夠的知識庫 • 把人對自然語言句法分析用型式符號標注 • 對100萬字的語料庫進行加工: • 分詞及詞性標注 • 用已有的做些加工及修改 • 標注短語結構 • 人工標注

  5. 語料的加工 • 分詞及詞性標注 • 對純文本語料進行分詞及詞性標注 • 切分單位 • 詞定義有些模糊不清的地方 • 偏正結構(雞蛋、鴨蛋) • 動賓結構(打球、理髮、出丑) • 動補結構(證明、看見、放大) • 基本上參考採用“北大加工規範”

  6. 語料的加工 • 詞性標記 • 現有詞性標注集 • 27大類 • 有些分類細 • 有些分類粗

  7. 語料的加工 • 自定標注集 • 標注細一點,因 沒詞典做支撐 • 適當吸收現代漢 語研究結果來做 分類

  8. 語料的加工 • 23個大類,用英文字母表示,有11個大類下面有小類,有一個小類下面有小小類 ex ︰n 名詞 nr 人名 nrx 姓 nrm 名 • 可以查得粗,也可查得細,視研究的需要,ex︰配合《現代漢語語法信息詞典》來做模糊找查 • 一共有86個標記符號

  9. 語料的加工 • 與”北大加工規範”不同之處︰ • 時間詞(nt)、處所詞(ns)放在名詞大類下面,如果要單一查某類,可用小類標記符號查尋 • 區別詞(ab)放在形容詞大類中 • 五種語素標記法,顛倒字母次序,方便找查 Ng Vg Ag Dg Tg  gN gV gA gD gT • 去掉名動詞vn、名形詞an、副動詞vd、副形詞ad • 在10個大類中設立了10個其他的小類,記做~g

  10. 語料的加工 • 切分標注具體說明 • 加標注符號 :“ / ” • 對”北大加工規範” 及”分詞規範”做些調整 • 分詞規範 • 加名詞性分詞單位應為分單位:非金屬、超聲波 • 非 超 為區別詞  非/ab 金屬/ng 超/ab聲波/ng • 漢語數位詞分別為分詞單位 • 五千三百零二 五/mx 千/mw 三/mx 百/mw 零/um 二/mx • 經常使用副詞作用的詞組為分詞單位 • 不得不  不/dn 得/vu 不/dn

  11. 語料的加工 • 對”北大加工規範”做的介紹及調整 • 人名:nr 姓與名都分開 nrx nrm • 不易或不知道姓與名就記作nr • 王/nr建民/nr  王/nrx 建民/nrm • 大衛‧歐提茲/nr 大衛/nrm‧/w歐提茲/nrx • 地名:nd 長的國名要考慮切割 • 中華人民共和國/nd ﹛中華/ab 人民/ng 共和國/ng﹜nd • 只有在行政區名稱是單音節且前面成分也是單音節為一切分單位:{台北/nd市/n}nd 台州/nd 長江/nd etc

  12. 語料的加工 • 對”北大加工規範”做的介紹及調整 • 團體組織 : nj “外交部” “國務院”為普通名詞 • 外交部/ng [美國/nd國務院/ng ] nj • 其他專有名詞 : nz 只有當前面是單音節且兩者緊密結合才不切 滿人/nz 漢人/nz • 數詞量詞 : 1 阿拉伯數字不切分 123.4/m 2 基數序數應切分 3 零不是一般係數詞 有點像助詞 : um 4 ”左右“”成千”為概數詞 ma 5 ”一些”應該需再切分 否則會被誤解

  13. 語料的加工 • 對”北大加工規範”做的介紹及調整 • 動詞加動詞或動詞加形容詞構成的述補結構 • “v + 得/不 + x”應統一加以切分 : 來不及/v  來/v 不/d 及/v • 有些成語或慣用語結構不那麼緊密也應有切分 • AAB重疊型 : 為一切分單位 • 雙音節離合動詞的AAB • 洗洗澡/v 揮揮手/v • 單音節動詞的重疊式加“看” • 試試看/v 唸唸看/v

  14. 語料的加工 • 短語標注 • 前人的短語標注與樹庫建立 • Lancaster-Leeds • Penn • 英語樹庫加工目的 • 提供一些具體服務(翻譯 檢索 索引等) • 方法及特點 • 人機互助(人注-機注-人校) 朝機器自動化發展

  15. 語料的加工 • 現有漢語短語句法標記集描述 • 兼顧了準短語組合、句子及句子類型 • 包含了詞短語句子句群之間絕大多數單位

  16. 語料的加工 • 漢語短語結構三個要解決的問題 • 現代漢語短語的界定問題 • 結構層次和結構關係的識別問題 • 排歧問題 • 漢語詞組基本結構類型 • 主謂結構 : 樹枝黃了 • 述賓結構 : 喝了三杯酒 • 定中結構 : 大紅燈籠 • 狀中結構 : 快跑 明天見 • 等等等

  17. 語料的加工 • 標注出短語的結構層次、關係、功能 • 短語標記(樹庫加工第一階段): EX:主謂短語 結構標記:zw 功能標記:jp [zw 紅軍/ng [ db 撤出/vs 台北/nd ] vp ] jp

  18. 語料的加工 • 句子標記(樹庫加工第二階段): Ex:單句 功能標記:dj [zv [zw 他 [db 是 學生] vp ] jp 嗎 ? ] dj 一般句子不用 只有再遇到一些複雜的句子才使用

  19. 語料的加工 • 特殊標記: • 易位成分標記 : 先對易位成分做短語標記 “{i}” ,”{} i” 他終於來了,匆匆地 [zv [zw 他 [zz 終於 [zz {i} [sb 來了] vp ] vp ] vp ] jp,{ [zc 匆匆地 ] dp } i.] dj • 省略成分標記 : “{o}” “{ } o” 稀不稀奇  [lh 稀 {o} [zz 不 稀 {奇} o ] ap ]ap • 強調成分標記 : “q” “{ } q” 我是昨天到的台北 [zv [zw 我 {是}q [zz 昨天 [db 到 {的} q 台北 ] vp ] vp ] jp . ] dj

  20. 語料的應用 • 短語定界研究 • “名詞+動詞” • 從上海來到了北京 : 上海來到 • [zz [jc 從/pf 上海/nd ] pp [db 來到/vz了/ut 北京/nd ] vp ] vp。/w • 慘無人道的精神折磨 : 精神折磨 • [dz 慘無人道/i 的/us [dz 精神/ng 折磨/vs] np ] np • 因為”上海來到”中間有“ ]pp”和“[ db ”顯然不同一個結構中 • “精神折磨”中間沒這樣的標記 所以為同一結構

  21. 語料的應用 • 句法結構關係研究 • 我的主意已經拿定 • [dz [zc 我/rp 的/us ] np 主意/ng ] np [ zz 已經/dt 拿定/vs ] vp。/w • 可集中精力某些關鍵的結構關係 • 如上例是 定中+狀中 • 句法結構功能研究 • 跟上例一樣可做結構功能的分析研究 • 找出某特定結構功能句子

  22. 語料的應用 • 可用數據庫的方式讓研究更方便 • 紀錄結構關係 功能類型 及前後項等 • [ fw [ zw 消息/ng 發布/vs ]jp 後/f ] tp

  23. 結論 • 《漢語文本短語結構的人工標注》語料庫的加工是進行信息處理奠定基礎的工作 • 語料庫本身需要對漢語知識有較全面的把握 • 所以才有研究加工的工作,加工完成後才能進入更全面深入的研究

More Related