1 / 47

近年詞彙研究

詞彙 屬性與變異 Attributes and Variation of Lexicon 鄭錦全 國立 台灣師範大學 國立中央大學 國立中山大學 中央 研究院 University of Illinois, Urbana-Champaign 2012 年 11 月 11 日 北京. 近年詞彙研究. 朱永锴 汕 头大学学报人文科学 版 1987 年 第三期 20-23 頁 21 頁: 爹 湖北天门话是 “祖父 ” 的意思。 爷爷湖北京山话是 “父 亲” 的意思。 公公重庆话是 “祖父 的姐或妹夫” 的意思。 粥河北沫源话是 “干 饭” 的意思。

Download Presentation

近年詞彙研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 詞彙屬性與變異Attributes and Variation of Lexicon鄭錦全國立台灣師範大學國立中央大學國立中山大學中央研究院University of Illinois, Urbana-Champaign2012年11月11日北京

  2. 近年詞彙研究 朱永锴 汕头大学学报人文科学版1987年第三期20-23頁 21頁: • 爹湖北天门话是“祖父” 的意思。 • 爷爷湖北京山话是“父亲” 的意思。 • 公公重庆话是“祖父的姐或妹夫” 的意思。 • 粥河北沫源话是“干饭” 的意思。 • 客河南新乡话是“女儿” 的意思。

  3. ‘申奧’

  4. 本文重點 變異宏觀研究 詞彙屬性

  5. 語 方 言 詞 彙

  6. 崙背鄉部分地區語言分布

  7. 台灣客家方言詞語 詞目 四縣 海陸 饒平 大埔 詔安 閩南 國語 小雨 細雨 水毛仔 細雨 細雨 小雨 小雨 小雨 下雨 落雨 落水 落雨 落雨 落雨 落雨 下雨 丈人 丈人老 丈人老 丈人老 丈人老 丈米老 丈人 丈人 上午 上晝 上晝 上晝 上晝 上晝 頂晝 上午 上午b 朝晨 朝晨 朝晨 朝晨 清早 早起 上午 上午c 朝晨 朝晨 清早 朝晨 清早 清早 上午 母豬 豬嬤 豬嬤 豬嬤 豬嬤 豬嬤 豬母 母豬 2,400 items

  8. 落雨 落雨 4/4 1 下雨 落水 0/4 0 豬嬤 豬母 2/40.5 母豬 豬嬤 2/40.5 豬母 母豬 4/40.75

  9. Cluster Analysis

  10. 詞彙屬性 語素或詞素數目

  11. 公元5世紀以前 年代 字種 書目 1300BC 3,000 甲骨文 93BC 5,122 史記 5 5,340 訓纂篇 83 5,833 漢書 100 9,353 說文解字 289 4,388 三國志 4C 12,824 字林 445 6,161 後漢書 488 5,842 宋書

  12. 6-7世紀 514 4,962 南齊書 543 22,726 玉篇 554 5,417 魏書 636 4,973 梁書 636 4,033 陳書 636 4,032 北齊書 636 4,161 周書 648 5,997 晉書 656 5,592 隋書 659 5,376 南史 659 5,572 北史

  13. 10-13世紀 945 6,346 舊唐書 974 5,109 舊五代史 997 26,430 龍龕手鑑 1008 26,194 廣韻 1039 31,319 類篇 1060 6,771 新唐書 1067 30,000 集韻 1072 3,909 新五代史 1212 35,189 改併五音聚韻四聲篇海

  14. 14-18世紀 1344 4,071 遼史 1344 5,264 金史 1345 7,389 宋史 1370 5,854 元史 1615 33,179 字匯 1671 33,549 正字通 1716 47,035 康熙字典 1739 7,124 明史

  15. 現代 1915 48,000 中華大字典 1927 8,080 清史稿 1959 49,965 大漢和辭典 1968 49,905 中文大辭典 1986 54,678 漢語大字典

  16. “词涯八千”

  17. 人的詞素量 史書總字數從二十幾萬到四百多萬字不等。 各人所用字種只有幾千,上限是八千。 學海無涯,但是人所能操縱的詞素量有涯邊盡頭。 對人類語言認知能力提出“詞涯八千” 來解釋每人用字的上限。

  18. 詞彙從語料庫建立 詞彙是詞語的集合體。 從語料建立詞彙。

  19. 唐詩三百首 謝公 最小 偏憐 女 , 自嫁 黔婁 百事 乖 。 顧我 無衣 搜 藎篋 , 泥他 沽酒 拔 金釵 。 野蔬 充膳 甘 長藿 , 落葉 添薪 仰 古槐 。 今日 俸錢 過 十萬 , 與君 營奠 復 營齋 。 昔日 戲言 身後 事 , 今朝 都到 眼前 來 。 衣裳 已施 行看 盡 , 針線 猶存 未忍 開 。 尚想 舊情 憐 婢僕 , 也曾 因夢 送 錢財 。 誠知 此恨 人人 有 , 貧賤 夫妻 百事 哀 。 閒坐 悲君 亦 自悲 , 百年 都是 幾多 時 ? 鄧攸 無子 尋 知命 , 潘岳 悼亡 猶 費詞 。 同穴 窅冥 何 所望 , 他生 緣會 更 難期 。 唯將 終夜 長開 眼 , 報答 平生 未展 眉 。

  20. 宋詞三百首 裁剪 冰綃 , 輕疊 數重 , 淡著 燕脂 勻注 。 新樣 靚妝 , 豔溢 香融 , 羞殺 蕊珠 宮女 。 易得 凋零 , 更 多少 、 無情 風雨 。 愁苦 。 問 院落 淒涼 , 幾番 春暮 ? ○ 憑寄 離恨 重重 , 這 雙燕 , 何曾 會人 言語 ? 天遙 地遠 , 萬水 千山 , 知他 故宮 何處 。 怎不 思量 , 除 夢裡 、 有時 曾去 。 無據 。 和夢 也 、 新來 不做 。

  21. 北大 人民日报1998年一月 • 19980101-01-001-001/m 迈向/v 充满/v 希望/n 的/ud新/a 世纪/n ——/wp一九九八年/t 新年/t 讲话/n (/wkz附/v 图片/n 1/m 张/qe)/wky • 19980101-01-001-002/m 中共中央/nt总书记/n 、/wu国家/n 主席/n 江/nrf泽民/nrg

  22. 中央研究院語料庫 <?xml version="1.0" encoding="UTF-8"?> -<corpus> -<article no="101703"> <genre>散文</genre> <style>描寫</style> <mode>written</mode> <topic>兒童文學</topic> <class>文學</class> <medium>教科書</medium> -<author> <name/> <sex>男女</sex> <nationality>中華民國</nationality> <nativelang/> </author> <publisher>國立編譯館</publisher> <publishlocation>臺灣</publishlocation> <publishdate/> <edition/> <title>2懷念梅姊</title> -<text> <sentence>2(Neu) 、(PAUSECATEGORY) 懷念(VJ) 梅姊(Nb) .(PERIODCATEGORY) 夜深(VH) 了(T) ,(COMMACATEGORY)</sentence> <sentence>月光(Na) 下(Ncd) 的(DE) 花園(Nc) 更(D) 顯得(VK) 冷清(VH) 。(PERIODCATEGORY

  23. 語料庫 上古漢語 111,172 word tokens 唐詩三百首 11,310 word tokens 宋詞三百首 13,314 word tokens 現代漢語平衡語料庫前5,000,000詞 現代漢語平衡語料庫後5,000,000詞 現代漢語平衡語料庫10,000,000詞 中央通訊社新聞稿10,000,000詞 北大人民日報1998一月1,000,000詞 (俞士汶教授提供)

  24. 上古漢語Old Chinese No Word Frequency Percent Cumulation 1 不(DC) 3970 3.571 3.571 2 也(T) 3608 3.245 6.816 3 之(T) 3497 3.146 9.962 4 而(C) 3090 2.779 12.741 5 曰(VE) 2737 2.462 15.203 6 之(NH) 2426 2.182 17.385 7 其(NH) 2246 2.020 19.406 8 以(P) 1786 1.606 21.012 9 於(P) 1571 1.413 22.425 10 有(VG) 1500 1.349 23.774 11 者(NH) 1315 1.183 24.957 12 人(NA1) 1154 1.038 25.995 13 則(C) 1059 0.953 26.948 14 無(VG) 1040 0.935 27.883 15 所(NH) 971 0.873 28.757

  25. 唐詩三百首 Tang Poems 1 無 44 0.389% 0.389% 2 來 31 0.274% 0.663% 3 生 30 0.265% 0.928% 4 人 28 0.248% 1.176% 5 歸 27 0.239% 1.415% 6 去 25 0.221% 1.636% 7 空 24 0.212% 1.848% 8 有 24 0.212% 2.060% 9如 23 0.203% 2.263% 10 之 23 0.203% 2.467% 11 下 23 0.203% 2.670% 12 上 23 0.203% 2.874% 13 長 21 0.186% 3.059% 14 多 21 0.186% 3.245% 15 在 21 0.186% 3.431%

  26. 宋詞三百首Song Lyrics 1 處 43 0.323 0.323 2 東風 36 0.270 0.593 3 正 35 0.263 0.856 4 又 34 0.255 1.112 5 人 33 0.248 1.359 6 但 30 0.225 1.585 7 去 29 0.218 1.803 8 更 28 0.210 2.013 9 路 27 0.203 2.216 10 斜陽 27 0.203 2.419 11 相思 25 0.188 2.606 12 念 25 0.188 2.794 13 黃昏 24 0.180 2.974 14 空 24 0.180 3.155 15 歸來 23 0.173 3.327

  27. 近代漢語Pre-modern Chinese 1 了(Di) 46706 1.630 1.630 2 道(VE) 44644 1.558 3.188 3 不(Dc) 44637 1.558 4.746 4 的(DE) 42525 1.484 6.230 5 是(SHI) 41236 1.439 7.669 6 他(Nh) 37259 1.300 8.969 7 一(Neu) 37157 1.297 10.266 8 我(Nh) 34296 1.197 11.463 9 了(T) 34191 1.193 12.656 10 你(Nh) 32920 1.149 13.805 11 個(Nf) 29343 1.024 14.829 12 那(Nh) 23650 0.825 15.654 13 說(VE) 23516 0.821 16.475 14 人(Na) 23277 0.812 17.287 15 這(Nh) 22639 0.790 18.078

  28. 平衡現漢前Modern Chinese first 5M 1 的(DE) 266275 5.818 5.818 2 是(SHI) 79999 1.748 7.566 3 一(Neu) 55402 1.211 8.777 4 在(P) 52853 1.155 9.932 5 有(V_2) 43133 0.943 10.875 6 我(Nh) 39947 0.873 11.747 7 個(Nf) 39395 0.861 12.608 8 不(D) 37481 0.819 13.427 9 了(Di) 35062 0.766 14.193 10 這(Nep) 32383 0.708 14.901 11 他(Nh) 29239 0.639 15.540 12 就(D) 28291 0.618 16.158 13 也(D) 28130 0.615 16.773 14 人(Na) 23419 0.512 17.284 15 都(D) 19573 0.428 17.712

  29. 平衡現漢後Modern Chinese 2nd5M 1 的(DE) 294860 6.046 6.046 2 是(SHI) 69081 1.416 7.462 3 在(P) 61187 1.255 8.717 4 一(Neu) 49503 1.015 9.732 5 有(V_2) 37277 0.764 10.496 6 不(D) 32374 0.664 11.160 7 也(D) 31236 0.640 11.801 8 我(Nh) 29182 0.598 12.399 9 了(Di) 27697 0.568 12.967 10 這(Nep) 26943 0.552 13.519 11 個(Nf) 26835 0.550 14.070 12 他(Nh) 24944 0.511 14.581 13 人(Na) 21520 0.441 15.022 14 與(Caa) 18528 0.380 15.402 15 就(D) 18527 0.380 15.782

  30. 平衡現漢Modern Chinese 10M 1 的(DE) 561135 5.936 5.936 2 是(SHI) 149080 1.577 7.513 3 在(P) 114040 1.206 8.719 4 一(Neu) 104905 1.110 9.829 5 有(V_2) 80410 0.851 10.679 6 不(D) 69855 0.739 11.418 7 我(Nh) 69129 0.731 12.150 8 個(Nf) 66230 0.701 12.850 9 了(Di) 62759 0.664 13.514 10 也(D) 59366 0.628 14.142 11 這(Nep) 59326 0.628 14.770 12 他(Nh) 54183 0.573 15.343 13 就(D) 46818 0.495 15.838 14 人(Na) 44939 0.475 16.313 15 都(D) 37037 0.392 16.705

  31. 人民日報 Peoples Daily 1998 1 的/ud 54139 5.741 5.741 2 在/p 11417 1.211 6.952 3 和/c 10579 1.122 8.074 4 了/ul 10191 1.081 9.155 5 是/vl!B1 8907 0.945 10.099 6 一/m 7039 0.746 10.846 7 不/df 4496 0.477 11.323 8 对/p 3611 0.383 11.706 9 中/f 3215 0.341 12.047 10 这/rz 3181 0.337 12.384 11 他/rr 2820 0.299 12.683 12 也/d 2758 0.292 12.975 13 等/u 2706 0.287 13.262 14 人/n 2679 0.284 13.546 15 上{s5}/f!B 2641 0.280 13.827

  32. 中央社新聞稿CNA News 1 的(DE) 428653 4.534 4.534 2 在(P) 128943 1.364 5.898 3 是(SHI) 83062 0.879 6.777 4 有(V_2) 57576 0.609 7.386 5 也(D) 52305 0.553 7.939 6 將(D) 48324 0.511 8.451 7 他(Nh) 47761 0.505 8.956 8 及(Caa) 46760 0.495 9.451 9 與(Caa) 45030 0.476 9.927 10 今天(Nd) 44822 0.474 10.401 11 表示(VE) 39655 0.419 10.820 12 說(VE) 39584 0.419 11.239 13 對(P) 37371 0.395 11.635 14 和(Caa) 36199 0.383 12.017 15 不(D) 35427 0.375 12.392

  33. 標記詞類 Tags

  34. 高頻詞集中度

  35. 以高頻詞集中度定詞彙關係

  36. 詮釋Explanations 文學體裁的文章要求。

  37. 詞彙相關係數Lexicon correlation

  38. Next To complete lexicon correlation studies When? Sooner or later, usually later. Thank you.

More Related