230 likes | 368 Views
《 漢語文本短語結構的人工標注 》 語料庫的加工與應用. R95944030 吳育奇. Outline. 前言 語料的加工 分詞與詞性標注 短語標注 語料的應用 結論. 前言. 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點 自動詞法 自動句法 利用詞法成果 提供自動句法基礎 如何實現語言的計算機自動理解 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等. 前言. 遇到的問題 錯誤率:分析系統缺少足夠的知識庫 把人對自然語言句法分析用型式符號標注 對 100 萬字的語料庫進行加工 : 分詞及詞性標注
E N D
《漢語文本短語結構的人工標注》語料庫的加工與應用《漢語文本短語結構的人工標注》語料庫的加工與應用 R95944030 吳育奇
Outline • 前言 • 語料的加工 • 分詞與詞性標注 • 短語標注 • 語料的應用 • 結論
前言 • 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點 • 自動詞法 自動句法 利用詞法成果 提供自動句法基礎 • 如何實現語言的計算機自動理解 • 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等
前言 • 遇到的問題 • 錯誤率:分析系統缺少足夠的知識庫 • 把人對自然語言句法分析用型式符號標注 • 對100萬字的語料庫進行加工: • 分詞及詞性標注 • 用已有的做些加工及修改 • 標注短語結構 • 人工標注
語料的加工 • 分詞及詞性標注 • 對純文本語料進行分詞及詞性標注 • 切分單位 • 詞定義有些模糊不清的地方 • 偏正結構(雞蛋、鴨蛋) • 動賓結構(打球、理髮、出丑) • 動補結構(證明、看見、放大) • 基本上參考採用“北大加工規範”
語料的加工 • 詞性標記 • 現有詞性標注集 • 27大類 • 有些分類細 • 有些分類粗
語料的加工 • 自定標注集 • 標注細一點,因 沒詞典做支撐 • 適當吸收現代漢 語研究結果來做 分類
語料的加工 • 23個大類,用英文字母表示,有11個大類下面有小類,有一個小類下面有小小類 ex ︰n 名詞 nr 人名 nrx 姓 nrm 名 • 可以查得粗,也可查得細,視研究的需要,ex︰配合《現代漢語語法信息詞典》來做模糊找查 • 一共有86個標記符號
語料的加工 • 與”北大加工規範”不同之處︰ • 時間詞(nt)、處所詞(ns)放在名詞大類下面,如果要單一查某類,可用小類標記符號查尋 • 區別詞(ab)放在形容詞大類中 • 五種語素標記法,顛倒字母次序,方便找查 Ng Vg Ag Dg Tg gN gV gA gD gT • 去掉名動詞vn、名形詞an、副動詞vd、副形詞ad • 在10個大類中設立了10個其他的小類,記做~g
語料的加工 • 切分標注具體說明 • 加標注符號 :“ / ” • 對”北大加工規範” 及”分詞規範”做些調整 • 分詞規範 • 加名詞性分詞單位應為分單位:非金屬、超聲波 • 非 超 為區別詞 非/ab 金屬/ng 超/ab聲波/ng • 漢語數位詞分別為分詞單位 • 五千三百零二 五/mx 千/mw 三/mx 百/mw 零/um 二/mx • 經常使用副詞作用的詞組為分詞單位 • 不得不 不/dn 得/vu 不/dn
語料的加工 • 對”北大加工規範”做的介紹及調整 • 人名:nr 姓與名都分開 nrx nrm • 不易或不知道姓與名就記作nr • 王/nr建民/nr 王/nrx 建民/nrm • 大衛‧歐提茲/nr 大衛/nrm‧/w歐提茲/nrx • 地名:nd 長的國名要考慮切割 • 中華人民共和國/nd ﹛中華/ab 人民/ng 共和國/ng﹜nd • 只有在行政區名稱是單音節且前面成分也是單音節為一切分單位:{台北/nd市/n}nd 台州/nd 長江/nd etc
語料的加工 • 對”北大加工規範”做的介紹及調整 • 團體組織 : nj “外交部” “國務院”為普通名詞 • 外交部/ng [美國/nd國務院/ng ] nj • 其他專有名詞 : nz 只有當前面是單音節且兩者緊密結合才不切 滿人/nz 漢人/nz • 數詞量詞 : 1 阿拉伯數字不切分 123.4/m 2 基數序數應切分 3 零不是一般係數詞 有點像助詞 : um 4 ”左右“”成千”為概數詞 ma 5 ”一些”應該需再切分 否則會被誤解
語料的加工 • 對”北大加工規範”做的介紹及調整 • 動詞加動詞或動詞加形容詞構成的述補結構 • “v + 得/不 + x”應統一加以切分 : 來不及/v 來/v 不/d 及/v • 有些成語或慣用語結構不那麼緊密也應有切分 • AAB重疊型 : 為一切分單位 • 雙音節離合動詞的AAB • 洗洗澡/v 揮揮手/v • 單音節動詞的重疊式加“看” • 試試看/v 唸唸看/v
語料的加工 • 短語標注 • 前人的短語標注與樹庫建立 • Lancaster-Leeds • Penn • 英語樹庫加工目的 • 提供一些具體服務(翻譯 檢索 索引等) • 方法及特點 • 人機互助(人注-機注-人校) 朝機器自動化發展
語料的加工 • 現有漢語短語句法標記集描述 • 兼顧了準短語組合、句子及句子類型 • 包含了詞短語句子句群之間絕大多數單位
語料的加工 • 漢語短語結構三個要解決的問題 • 現代漢語短語的界定問題 • 結構層次和結構關係的識別問題 • 排歧問題 • 漢語詞組基本結構類型 • 主謂結構 : 樹枝黃了 • 述賓結構 : 喝了三杯酒 • 定中結構 : 大紅燈籠 • 狀中結構 : 快跑 明天見 • 等等等
語料的加工 • 標注出短語的結構層次、關係、功能 • 短語標記(樹庫加工第一階段): EX:主謂短語 結構標記:zw 功能標記:jp [zw 紅軍/ng [ db 撤出/vs 台北/nd ] vp ] jp
語料的加工 • 句子標記(樹庫加工第二階段): Ex:單句 功能標記:dj [zv [zw 他 [db 是 學生] vp ] jp 嗎 ? ] dj 一般句子不用 只有再遇到一些複雜的句子才使用
語料的加工 • 特殊標記: • 易位成分標記 : 先對易位成分做短語標記 “{i}” ,”{} i” 他終於來了,匆匆地 [zv [zw 他 [zz 終於 [zz {i} [sb 來了] vp ] vp ] vp ] jp,{ [zc 匆匆地 ] dp } i.] dj • 省略成分標記 : “{o}” “{ } o” 稀不稀奇 [lh 稀 {o} [zz 不 稀 {奇} o ] ap ]ap • 強調成分標記 : “q” “{ } q” 我是昨天到的台北 [zv [zw 我 {是}q [zz 昨天 [db 到 {的} q 台北 ] vp ] vp ] jp . ] dj
語料的應用 • 短語定界研究 • “名詞+動詞” • 從上海來到了北京 : 上海來到 • [zz [jc 從/pf 上海/nd ] pp [db 來到/vz了/ut 北京/nd ] vp ] vp。/w • 慘無人道的精神折磨 : 精神折磨 • [dz 慘無人道/i 的/us [dz 精神/ng 折磨/vs] np ] np • 因為”上海來到”中間有“ ]pp”和“[ db ”顯然不同一個結構中 • “精神折磨”中間沒這樣的標記 所以為同一結構
語料的應用 • 句法結構關係研究 • 我的主意已經拿定 • [dz [zc 我/rp 的/us ] np 主意/ng ] np [ zz 已經/dt 拿定/vs ] vp。/w • 可集中精力某些關鍵的結構關係 • 如上例是 定中+狀中 • 句法結構功能研究 • 跟上例一樣可做結構功能的分析研究 • 找出某特定結構功能句子
語料的應用 • 可用數據庫的方式讓研究更方便 • 紀錄結構關係 功能類型 及前後項等 • [ fw [ zw 消息/ng 發布/vs ]jp 後/f ] tp
結論 • 《漢語文本短語結構的人工標注》語料庫的加工是進行信息處理奠定基礎的工作 • 語料庫本身需要對漢語知識有較全面的把握 • 所以才有研究加工的工作,加工完成後才能進入更全面深入的研究