1 / 50

Tâi-gú gú-liāu-khò . gú-giân-ha̍k kang-chok-hong 台語語料庫語言學工作坊

Tâi-gú gú-liāu-khò . gú-giân-ha̍k kang-chok-hong 台語語料庫語言學工作坊. 楊允言 Iûⁿ Ún-giân 台中教育大學台灣語文學系 助理教授. Gu-liau-khoo. 2010 語言學卓越營 2010/7/23. 報告大綱. Tai-kong. 說明 羅馬字字型 / 輸入法 字 / 辭典 詞頻統計資料 語詞檢索系統. 報告大綱 -2. Tai-kong. 斷詞 詞類標記 書寫系統轉換 應用:電腦講台語 語料資源. 說明. Soat-bêng.

jafari
Download Presentation

Tâi-gú gú-liāu-khò . gú-giân-ha̍k kang-chok-hong 台語語料庫語言學工作坊

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tâi-gú gú-liāu-khò. gú-giân-ha̍k kang-chok-hong 台語語料庫語言學工作坊 楊允言 Iûⁿ Ún-giân 台中教育大學台灣語文學系 助理教授 Gu-liau-khoo 2010 語言學卓越營2010/7/23

  2. 報告大綱 Tai-kong • 說明 • 羅馬字字型/輸入法 • 字/辭典 • 詞頻統計資料 • 語詞檢索系統

  3. 報告大綱-2 Tai-kong • 斷詞 • 詞類標記 • 書寫系統轉換 • 應用:電腦講台語 • 語料資源

  4. 說明 Soat-bêng • 假使有chah[帶]電腦來,請那上課那操作 • 講義有上網Google查詢「楊允言」 好手氣作品演講Yahoo查詢tī [在]第二個

  5. 說明-2 Soat-bêng 資料來源:M. Paul Lewis(ed.). 2009. Ethnologue : Languages of the world (16th ed.). SIL International

  6. 說明-3 Soat-bêng • 閩南語 • 語言人口數:47M • 世界排名第24名 • 漢字書寫kah羅馬字書寫互相幫贊

  7. 說明-4 Soat-bêng • 閩語/閩南語? • 廈門話(Amoy)、台灣土語、福建話、台語、閩南語(國民政府)、福佬話(客家人)、… • 約有20種稱呼 • 一個語言,各自表述? • 民間慣稱「台語」

  8. 說明-5 Soat-bêng • 台語tī台灣ê處境 • 強勢族群、弱勢語言 • 錯誤ê語言政策(獨尊華語) • 錯誤ê語言使用觀念(母語厝內講tō好、大人遷就囡仔) • 語詞流失、新語詞補充

  9. 羅馬字字型 LMJ ji-heng • 台語羅馬字,有ê符號是兩個character鬥做伙ê(符合Unicode規範),chia ê符號,假使無適當ê字型,有時仔會出現一個四角格仔,無法度正常顯示。

  10. 羅馬字字型-2 LMJ ji-heng • Tī Windows 7作業系統,已經完全無問題,總是較早期ê作業系統所提供ê字型大部分攏無支援Unicode規範(兩字鬥做伙)

  11. 羅馬字字型-3 LMJ ji-heng • Windows XP 作業系統,會使選用 Lucida Sans Unicode字型,台羅無問題,白話字差一個符號(o.)(Combining Dot Above Right,2004年納入Unicode)

  12. 羅馬字字型-4 LMJ ji-heng • Taigi Unicode http://iug.csie.dahan.edu.tw/twu.ttf • Charis SIL http://scripts.sil.org/CharisSIL_download • Doulos SIL http://scripts.sil.org/DoulosSIL_download • Gentium http://scripts.sil.org/gentium_download • DejaVu http://dejavu-fonts.org/wiki/index.php?title=Download

  13. 輸入法 Su-jip-hoat • 信望愛台語客語輸入法http://taigi.fhl.net/TaigiIME/ • 有32 bits kah 64 bits版 • 漢羅/全羅, 台羅/白話字 • 雙音節(kah以上)ê語詞,m̄免輸入聲調kah連字符 • 自定詞庫

  14. 輸入法-2 Su-jip-hoat • 教育部臺灣閩南語漢字輸入法http://140.111.56.95/hanji/MOE_TBHS_2.0.exe • Taiwanese package(羅馬字)http://tailo.fhl.net/TP/ • TaigiLMJ101http://khai.mtwww.mt.au.edu.tw/ezcatfiles/b077/img/img/775/TaigiLMJ101SB.htm • Transliterator (Firefox add-on) http://addons.mozilla.org/zh-TW/firefox/addon/883/

  15. 字/辭典 Ji/su-tian • 台華辭典 http://iug.csie.dahan.edu.tw/q/q.asp • 6萬外個詞條,漳州腔為主 • 提供羅馬字含糊查詢,輸入"hoe-chhia",會chhē出"hoe-chhia (花車)"、"hóe/hé-chhia (火車)"、"hòe/hè-chhia (貨車)"、"hóe/hé-chhiah (火鍘)“ • 會當kā辭典khǹg tī Blog邊a欄位 http://iug.csie.dahan.edu.tw/TG/CK/chhahkiann.asp

  16. 字/辭典-2 Ji/su-tian • 台日大辭典台語譯本http://taigi.fhl.net/dict/ • 9萬外個詞條,泉州腔為主 • 林俊育2002年開始整理,台文詞條改做漢羅,日文解說翻寫做台文,蔡哲民開發系統 • 後來kah中研院語言所合作,提供原圖掃瞄

  17. 字/辭典-3 Ji/su-tian • 教育部台灣閩南語常用詞辭典 http://twblg.dict.edu.tw/tw/index.htm • 1萬外個詞條,第1份官方辭典 • 漢字用字遵照教育部的規範 • 台語詞條,華語解說

  18. 字/辭典-4 Ji/su-tian • 甘字典http://taigi.fhl.net/dick/ • 廈門音新字典 • 台語音節,華語解說 • 2009年上線,台語信望愛網站提供 • 介面kah台日大辭典台語譯本類似,精差資料無仝

  19. 詞頻統計資料 Sû-pîn • 台語文詞頻統計 http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/guliau-supin.asp • 國科會計畫的結案報告資料,包括漢羅台語文(400外萬詞,word tokens)kah全羅台語文語料(240外萬詞),有詞頻、互訊息、相關度ê資料

  20. 詞頻統計資料-2 Sû-pîn • 互訊息(Mutual Information) • 0 無關係(獨立事件) • > 0 愈有關係 • < 0 愈無關係

  21. 詞頻統計資料-3 Sû-pîn • 相關度(Correlation) • 數字愈大,愈有關係

  22. 詞頻統計資料-4 Sû-pîn • 因為無人工校對,mā無POS (part-of-speech)資料,MI kah Cor 品質並無好 • 台語平均詞長:1.4vs 華語 1.6 (CKIP)、2.0 (香港)

  23. 詞頻統計資料-5 Sû-pîn • 教育部台灣閩南語字詞頻http://203.64.42.97 • 官方第1份詞頻統計資料,語料分教材、口傳文學、創作文學3大類,140外萬詞 • thang利用羅馬字kā無仝漢字寫法khǹg做伙

  24. Kiám-sek 語詞檢索 • Corcordancer、 KWIC (KeyWord In Context) • 台語文語詞檢索系統 http://iug.csie.dahan.edu.tw/TG/concordance/ • 漢羅(5.8M+)/羅馬字(3.4M+)Syl.

  25. Kiám-sek 語詞檢索-2 • 教育部台灣閩南語字詞頻http://203.64.42.97/ • 文本lóng chhoân 2種文字型式 • 會當查詢重疊型式ê語詞 • 漢字造字利用中研院缺字系統 • 會當羅馬字、漢羅 頂下對照看Firefox需要add-on(HTML Ruby)https://addons.mozilla.org/zh-TW/firefox/addon/6812/

  26. 斷詞 Tng-su • 台語文斷詞系統http://poj.likulaw.info/hanlo_hunsu.php • 利用台華辭典,採用逆向最大比對法(Backward Maximum Matching Algorithm) • 提供使用者詞庫,增加斷詞結果ê正確率

  27. 斷詞-2 Tng-su • Backward Maximal Matching (BMM) vs FMM • Ùi聖經看台語語詞變化BMM : Ùi#聖經#看#台語#語詞#變化FMM : Ùi#聖經#看台#語#語詞#變化

  28. 斷詞-3 Tng-su • Q1:台語ê分詞規範? • 臺灣閩南語羅馬字拼音方案連字符使用規則http://www.edu.tw/files/site_content/M0001/lanrule.pdf • kah華語無啥仝款:數字、人名、… • Q2: 遵照台語分詞規範ê辭典? • 辭典內底ê詞條有ê是詞組

  29. 詞類標記 Tagging • 台語文詞類標記http://iug.csie.dahan.edu.tw/TGB/tagging/tagging.asp • 華語詞類標記http://ckipsvr.iis.sinica.edu.tw/ • 無台語文人工標記詞類資料 • kā每一個台語詞翻做華文(一對多),揀出上適當ê,chhē出這個華語詞所有可能ê詞類標記 • 用MEMM 揀出上適當ê詞類 • 詞類集採用中研院46個簡化詞類

  30. Tagging

  31. 詞類標記-3 Tagging • 實例 • ... Sió-mōe thiaⁿ chè ōe chiū chhe lâng khì kúi-nā kok sì-kè bā ... • ... 小妹聽chè 話就差人去幾若國四界bā...

  32. 詞類標記-4 Tagging • 利用程式kā詞隨個對齊 • 小妹[Sió-mōe] 聽[thiaⁿ] chè[chè] 話[ōe] 就[chiū ] 差[chhe] 人[lâng] 去[khì] 幾若[kúi-nā] 國[kok] 四界[sì-kè] bā [bā]

  33. 詞類標記-5 Tagging • 查台華辭典,加入華語詞 • 小妹[Sió-mōe]{小妹;妹子;妹妹} 聽[thiaⁿ]{聽} chè[chè]{#制;祭;詐;債;製;際;濟} 話[ōe]{話;話語} 就[chiū ]{就} 差[chhe]{打發;指派;差} 人[lâng]{人;人們} 去[khì]{去;掉} 幾若[kúi-nā]{好幾} 國[kok]{國} 四界[sì-kè]{四下裡;四處;到處;在在;處處} bā[bā]{找;物色;剛好;密;密合;覓;緊;親密}

  34. 詞類標記-6 Tagging • 以HMM挑適當ê華語詞 • 小妹[Sió-mōe]{小妹;妹子;妹妹}<妹妹> 聽[thiaⁿ]{聽}<聽> chè[chè]{#制;祭;詐;債;製;際;濟}<際> 話[ōe]{話;話語}<話> 就[chiū]{就}<就> 差[chhe]{打發;指派;差}<差> 人[lâng]{人;人們}<人> 去[khì]{去;掉}<去> 幾若[kúi-nā]{好幾}<好幾> 國[kok]{國}<國> 四界[sì-kè]{四下裡;四處;到處;在在;處處}<到處> bā[bā]{找;物色;剛好;密;密合;覓;緊;親密}<找>

  35. 詞類標記-7 Tagging • 以MEMM揀出詞類標記 • 小妹[Sió-mōe] <妹妹>(Na)聽[thiaⁿ] <聽>(VE) chè[chè] <際>(Nd)話[ōe] <話>(Na)就[chiū] <就>(D)差[chhe] <差>(VH)人[lâng] <人>(Na)去[khì] <去>(VCL)幾若[kúi-nā] <好幾> (Neu)國[kok] <國>(Na)四界[sì-kè] <到處>(D) bā[bā] <找>(VC)

  36. choan-oann 書寫系統轉換 • 華台轉換http://taigi.fhl.net/ht/ • 台語信望愛提供,主要是利用辭典詞條來轉換,所以並無調整語詞順序,總是是一個好用ê工具,尤其是對一個初初beh開始試寫台語文ê人,會當協助避免用字無一致ê問題。

  37. choan-oann 書寫系統轉換-2 • 全羅轉漢羅http://taigi.fhl.net/hanlo/ • 漢羅轉全羅 http://taigi.fhl.net/lohan/ • 台語信望愛提供,主要利用辭典資料做轉換

  38. choan-oann 書寫系統轉換-3 • 全羅漢羅轉換http://203.64.42.97/cl2hl/choan-lai-choan-khi.php • 背後利用語料庫ê統計資料 • 透過字典、辭典kā所有可能ê候選字詞chhē出來,利用統計(Mutual Information)來決定beh揀tó一個。

  39. 電腦講台語 kong-oe • 台語羅馬字發音試驗系統http://iug.csie.dahan.edu.tw/tts/tts.asp • 規則變調 eg: 清清 • 隨前變調 eg:來看你 • 輕聲 eg:陳先生 • 再變調 eg: 去台南 • á[仔]前變調 eg:簿仔 • 三連音變調 eg:寒寒寒 • 升調 eg: khăn-páng[看板]

  40. 電腦講台語-2 kong-oe • 台華辭典(60K詞目)對應到華語詞 • 中研院詞庫小組80K詞目ê詞類標記 • 仝音詞,選查詢詞頻上koân ê eg : kā[把] (1211) vs 咬(294) • 詞類ambiguity暫時無處理 • 詞類標記包括:A形容詞、C連接詞、D副詞、G後置詞、I感嘆詞、M特別標記、N名詞、P介詞、R代名詞、V動詞、S時間詞、T語助詞 • 疊詞當做形容詞,其它未知詞當做名詞

  41. 電腦講台語-3 kong-oe • 變調規則:20條 • 音節層次eg: beh[欲]m̄管是m̄是語詞ê一部份(可比「kiông-beh強[欲]」),lóng標記做再變調 • 語詞層次eg: che[這]、he[那],標記做本調

  42. 電腦講台語-4 kong-oe • 詞類層次eg:詞類N(名詞),後壁ê詞類若是A(形容詞)、D(副詞)、P(介詞)、R(代名詞)抑是V(動詞),這個名詞詞尾音節標記做本調 • 句型層次eg: ē...bē會...袂ê句型出現時(bē出現tī句尾,句中出現ē ),將bē標記做輕聲

  43. 語料資源 chu-goân • (國科會數位典藏)台灣白話字文獻館http://www.tcll.ntnu.edu.tw/pojbh/script/index.php • (台文館)台語文數位典藏資料庫http://iug.csie.dahan.edu.tw/nmtl/dadwt/index.htm • 台語信望愛http://taigi.fhl.net/ • 台語文記憶http://iug.csie.dahan.edu.tw/memory/TGB/mowt.asp • (台文館)白話字數位典藏博物館http://203.64.42.97/taibunkoan/bang-cham/

  44. 語料資源-2 chu-goân • 台語線頂聖經http://taigi.fhl.net/list.html • Wikipedia台語版http://zh-min-nan.wikipedia.org/wiki/ • 台語百科http://taigi-pahkho.wikia.com/ • (文建會)台灣民間文學館http://cls.hs.yzu.edu.tw/tfl/ • 台語網http://groups.google.com/group/taigu?hl=zh-TW

  45. Kèng-chhiáⁿ Chí-kàu敬 請 指 教ungian at gmail Kóng Tâi-gú

More Related