380 likes | 889 Views
汉语成语知识库介绍 *. 俞士汶 1 朱学锋 1 王雷 1, 2 1 计算语言学教育部重点实验室(北京大学 ) 2 北京大学外语学院 2013 年 9 月 13 日 西北民族大学(甘肃兰州). 第十四届中国少数民族语言文字信息处理学术研讨会. * 相关研究得到国家自然科学基金项目(项目号: 61272221 , 61170163 ) 和 863 项目( 2012AA011101 )的支持。. 提 要. 引言:成语在现代汉语中的使用情况 北大成语知识库的建设理念 成长中的北大成语知识库 有关成语与成语知识库的研究课题
E N D
汉语成语知识库介绍* 俞士汶1 朱学锋1 王雷1, 2 1 计算语言学教育部重点实验室(北京大学) 2 北京大学外语学院 2013年9月13日 西北民族大学(甘肃兰州) 第十四届中国少数民族语言文字信息处理学术研讨会 * 相关研究得到国家自然科学基金项目(项目号:61272221,61170163) 和 863项目(2012AA011101)的支持。
提 要 • 引言:成语在现代汉语中的使用情况 • 北大成语知识库的建设理念 • 成长中的北大成语知识库 • 有关成语与成语知识库的研究课题 • 结语与致谢
提 要 • 引言:成语在现代汉语中的使用情况 • 北大成语知识库的建设理念 • 成长中的北大成语知识库 • 有关成语与成语知识库的研究课题 • 结语与致谢
引言:成语在现代汉语中的使用情况 现代汉语中的一类特殊词语——特点何在? 定义:人们长期以来习用的、简洁精辟的定型词组或短语(《现代汉语词典》)。 成语有广义与狭义之分, “习用”亦有演变过程。 结构:四字格居多,其中又以“2+2”的联合结构居多。 生龙活虎、龙腾虎跃、龙飞凤舞、前呼后拥 非此结构者:一衣带水,感同身受 语义:“简洁精辟”导致较普通词语难懂。书面语言用字较多(罄竹难书)。有些可根据字面意义推断(后来居上),有些必须知道来源或典故才能懂得意思(朝三暮四、杯弓蛇影)。时代感分明(锱铢必较—斤斤计较——克克计较?)。 情感:褒贬清晰(精雕细刻、粗枝大叶),感情表达强烈。 隐喻:生动形象(旌旗蔽日),寓意深刻(琴瑟和谐)。
引言:成语在现代汉语中的使用情况 现代汉语中的一类特殊词语——特点何在? 使用:中国国家语言文字工作委员会自2006年起,每年发布的《中国语言生活状况报告》,都包含各种媒体使用成语的情况。如在2011年的10亿汉字的语料中,成语出现近200万次,覆盖率为0.32%。 实例:最近完成3篇短文,题目分别是 前人种树,后人乘凉(汉语拼音方案发布55周年感言) 千里之行,始于足下(北大计算中心成立50周年感言) 另辟蹊径,独具匠心(南师大《语言科技文库》中一本书之书评, 5000字短文,用了8个成语。) 就有理解与运用的问题。
提 要 • 引言:成语在现代汉语中的使用情况 • 北大成语知识库的建设理念 • 成长中的北大成语知识库 • 有关成语与成语知识库的研究课题 • 结语与致谢
自然语言处理系统和语言知识库 …… 应用程序2 应用程序1 平台 / API …… 语言知识库2 语言知识库3 语言知识库1 语言知识库4 语言知识库是自然语言处理系统不可或缺的组成部分,成败的关键。 在语言知识库搭建的平台上可以上演威武雄壮生动活泼的应用系统 的剧目。
CLKB的发展历程 历时26年 2011 2010 中国国家科技进步奖二等奖 2007 中国电子学会科学技术奖一等奖 1998 中国教育部科技进步一等奖 1986 中国教育部科技进步二等奖 CLKB项目启动 今年教师节北京大学 给本项目颁发 “首届产学研工作 特别贡献奖” • 北大文理结合的研究基础 • 对汉语母语知识和文化的认知优势
CLKB 的广泛应用 自由下载以万计 协议用户遍天下
《现代汉语语法信息词典》是CLKB的基础 双语语料库 多语言概念词典 单语——多语 词义标注语料库 单语——多语 词义——词法 中文概念词典 基本标注语料库 词汇——概念 专业术语库 短语结构库 语料库——词典 语句——词汇 通用——专业 现代汉语语法信息词典
新的生长点 阳光雨露:各项基金与业界同仁的支持 隐喻知识库 概率语法词典 虚词用法库 成语知识库 沃土CLKB 语义词典 语料库 概念词典 语法词典
成语知识库的建设理念——面向语言能力提升 《国家中长期语言文字事业改革和发展规划纲要(2012—2020年)》将“提高国民语言文字应用能力”作为主要任务之一。 人的语言能力与机器语言能力 机器对成语的理解(包括确切翻译)是文本内容理解的一个重要组成部分。 成语的正确理解和恰当运用是人和机器的语言能力、文化素养的重要反映(罄竹难书)。 成语数量庞大,毕竟有限, 基于成语知识库,绝大部分成语的理解(翻译)问题就会迎刃而解。对成语的运用亦可提供参照。 ICL/PKU建成了一个成语知识库,并基于该成语知识库开展了多词表达、比较语言学、隐喻计算、计算机辅助翻译等方面的研究。
提 要 • 引言:成语在现代汉语中的使用情况 • 北大成语知识库的建设理念 • 成长中的北大成语知识库 • 有关成语与成语知识库的研究课题 • 结语与致谢
成长中的北大成语知识库 第一阶段(1986年— )《现代汉语语法信息词典》GKB的组成部分 GKB是一部面向语言信息处理的大型电子词典。它按照语法功能和意义相结合的准则收录了7.3万余词语。依照语法功能分布的原则,建立了词类体系,完成了这7.3万词语的归类。并在此基础上,分 类描述每个词语的各种语法属性。 引自中国工程院编《20世纪我国重大工程技术成就》之第二项汉字信息处理与印刷革命(暨南大学出版社2002年第一版31页) 清华大学出版社出版了介绍这部电子词典的专著 《现代汉语语法信息词典详解》第一版1998年,第二版2003年 获1998年度教育部科技进步奖二等奖 当前GKB收了8万余汉语词语,其中成语库和习用语库共有9千多。
关于成语子类划分的讨论 ——与韩国姜柄圭博士讨论 2013年8月1日来信质疑 动词功能成语、名词功能成语都能理解,但是修饰功能成语(IM)与副词功能成语(ID)、区别词功能成语(IB)稍微模糊。修饰功能是否包含副词功能和区别词功能?例如:“得意洋洋”既可以作为定语,也可以作为状语(“得意洋洋地说”;得意洋洋的样子)。 还有,形容词功能成语与补语功能成语的层次是否不一样? 又如“不折不挠 ”(“参天耸立, 不折不挠,对抗着西北风”。 “尽管有些为难,他却不折不挠”。“不折不挠的意志” ) 好像有动词性特点。为什么把它分为修饰功能成语?
关于成语子类划分的讨论 ——与韩国姜柄圭博士讨论 2013年8月3日回信摘要:成语不是按语法功能划分出来的,是现代汉语中一类特殊的词语。为了句法分析的需要,GKB对所收的成语按其常用的语法功能划分子类。“得意洋洋”确实既可以作为定语,也可以作为状语(得意洋洋地说;得意洋洋的样子),如果仿照基本词类的处理方法,就要划归两个子类,要设两个记录。权衡利弊,GKB没这么做,而是另设了一个“修饰功能成语”子类。形容词是可以做补语,还可以作谓语、定语等等。有些成语,如“五体投地”(佩服得五体投地)、 “滚瓜烂熟”(背得滚瓜烂熟),基本上只做补语,将其独立出来,另设了一类“补语功能成语”。汉语动词功能最泛。可以作谓语、主语、宾语、定语等等。根据实例,“不折不挠”可以划归动词。研制GKB之初,没有现在这么多语料可以利用。难免有瑕疵。
成长中的成语知识库 第一阶段(1986年— ):《现代汉语语法信息词典》 第二阶段(2004年— ):在“综合型语言知识库”的规划下,单独建库。 收入成语(广义的,包括没有典故的习惯用语)36000多条。 除GKB 原有的“主语”、“谓语”、 “句首”等 句法属性信息外,增设了11个新的属性字段: 成语、级别、变体、近义、反义、直译、意译、英语近似、译者、释义、词频、来源。共计23个属性字段。 特别是“直译”、“意译”、“英语近似” 字段既重要,又难填。 现已完成1万多条成语的属性值填写,其中2600多条记录的英语字段是王雷博士自己翻译的。
成长中的成语知识库 成语:自暴自弃 直译: to expose and throw oneself away 意译: to abandon oneself to despair 英语近似: to cut off one's nose to spite one's face 近义:妄自菲薄、自惭形秽 反义:妄自尊大、自高自大、自命不凡 成语:开门揖盗 直译:to open the door and invite robbers 意译:to invite disaster by letting in evildoers 英语近似: Opportunity makes the thief近义:自讨苦吃、引狼入室 反义:关门打狗
成长中的成语知识库 第一阶段(1986年— ):《现代汉语语法信息词典》 第二阶段(2004年— ):“综合型语言知识库” 第三阶段(2010年— ):“历代语言知识库建置”计划 2010年加入“历代语言知识库建置”计划起,成语知识库的发展有了更开阔的视野,更加重视成语知识库在汉语教学特别是东亚地区的汉语教学领域所能发挥的潜能。进展如下: (1)CIKB与历代语言知识库中的另一成果“诗词曲典故资料库”进行连接,相互参照。 实现成员的优势互补,提高知识库整体品格。 倾城倾国——倾国风流、一顾倾城、名花倾国、倾人城、倾城色、倾城国等等。 成语与典故的对应使两个自立的知识库交相辉映,可以让人同时领悟成语与典故的含义,不仅有助于理解使用成语的汉语文本的内容,还能增强赏析中国古典文学瑰宝的能力。
成长中的成语知识库 第一阶段(1986年— ):《现代汉语语法信息词典》 第二阶段(2004年— ):“综合型语言知识库” 第三阶段(2010年— ):“历代语言知识库建置”计划 进展如下: (1)CIKB与“诗词曲典故资料库”进行连接。 (2)建构汉语成语教学网站。即罗凤珠老师设计并实施的「成語典故分階多語教學網站」。 内容:2000条成语,英、日、韓文翻譯、詞性與讀音標記、 變體、近義與反義成語、成語釋義、出處、例句等成語知識, 與由元智大學所建置的典故知識庫對應。 教学理念:体现了分阶段,多语言,多功能的先进理念。 新认识:如两岸读音的差异——“从容不迫”、“不可收拾”
成长中的成语知识库 第一阶段(1986年— ):《现代汉语语法信息词典》 第二阶段(2004年— ):“综合型语言知识库” 第三阶段(2010年— ):“历代语言知识库建置”计划 进展如下: (1) CIKB与“诗词曲典故资料库”进行连接 (2)成語-典故之分階段多語言教學網站 (3) 汉语成语教学、科研实践活动 王雷著《汉英对照中国成语1000》 王雷, 俞士汶,朱学锋,罗凤珠. 汉语成语知识库与汉语教学. 第八届中文电化教学国际研讨会,中文教学现代化学会主办. 会议地点: 上海,2012年8月8-11日. 国际中国语言学学会第21 届年会(IACL 21)之工作坊 ——历代语言知识库的建构与应用(2013年6月5日-7日)。
成长中的成语知识库——成语知识库的建构方法成长中的成语知识库——成语知识库的建构方法 成语知识库也是一项已历时27年的大型语言工程。 CLKB建构的全过程都采用人机互助的方法。自动建构本质上是机器辅助构建,尽可能采用适用的成熟的软件技术,如数据库技术,机器学习技术等等,可以保证工程的规模和进度。 成语知识库又是一项知识密集型的高级语言工程。 单纯依赖自动技术建构的语言知识库的质量不能满足应用的需要,因此必须投入相当多的人力,必须投入高水平的专家的力量。专家的知识和奉献才是语言知识库质量的保证。对此,我们始终保持清醒的认识,坚持不懈。
主要内容 • 现代汉语中的成语及其特点 • 现代汉语成语知识库的建设理念 • 成长中的北大成语知识库 • 有关成语和成语知识库的研究课题 • 结语与致谢
成语知识库的研究课题 小视野:成语的理解与运用 既面向机器,又面向人,以面向人的研究为基础,两者相互促进。 理解与运用的困难所在? 大视野:紧扣历代语言知识库 对历代语言知识深层次研究的启示与贡献:语言演化与社会环境变迁的交互影响。 成语可否作为切入口? 小视野与大视野也是互相补足的。
成语理解与运用的困难所在 含不常用字:另辟蹊径,高屋建瓴, 言简意赅, 锱铢必较,罄竹难书…… 含费解的词:膏火自煎,乌合之众,独具匠心, 固若金汤, 司空见惯,格物致知…… 一知半解,似是而非:一丝不苟,感同身受,司空见惯 (十忽一丝,十丝一毫,十毫一厘,十厘一分,十分一寸,十寸一尺,十尺一丈) 褒贬:洛阳纸贵 ↔ 罄竹难书 一丝不苟 ↔ 斤斤计较 / 锱铢必较(褒贬两用) 语义变化:金屋藏娇 使用依赖语境:坚如磐石 ↔ 固若金汤 非字面义,与典故有密切关系:胸有成竹,金屋藏娇,朝三暮四,杯弓蛇影,班门弄斧……
成语与典故的关联有待挖掘与表达 典故:诗文里引用的古书中的故事或词句(《现代汉语词典》)。 所謂典故,一般辭書的解釋是:「詩文等作品中引用的古代故事和有來歷出處的詞語」,分為「語典」、「事典」及「語事混合典」三種。語典指變化前人詞語,但沿用前人詩意的寫法;事典指引用古代故事或某人生平事蹟以豐富詩意的寫法;語事典混合使用是指融合前人用過的典故之用語及同一個典故故事的用法。不同的詩人引用相同典故時,或直接使用前人使用過的詞語與詞義,所以詞義相同,用詞也相同或相似;或因詩句中所側重的詞義不同,致使用詞或相同或不同。也有典故出處不同,詩句中所取的詞義相同或相近,用詞不同。(引自台湾罗凤珠老师的一篇文章) 成语 有的来源于典故(故事):金屋藏娇,叶公好龙。 有的直接取自于典故(词句),一日三秋。 (彼采萧兮,一日不见,如三秋兮!)
成语与隐喻 调查成语中的隐喻表现手法 学海文林,狐假虎威,龙腾虎跃, 花容月貌 对现代汉语中隐喻识别、理解与生成的启示作用 知识的海洋,他是老狐狸, 歌坛腾飞,姑娘花一样 成语与隐喻的多语言表达
语言演化与社会环境变迁的交互影响 度量衡制度改变的影响: 锱铢必较,半斤八两,斤斤计较,尺短寸长,丝毫不差 生活用具变化的影响: 光阴似箭(白莎:光阴犹如子弹) 同室操戈(同室操刀) 化干戈为玉帛(要大炮,不要黄油) 社会生态变化的影响: 三从四德 新“三从四德”:老婆出门要跟“从”,老婆命令要服“从”,老婆讲错要盲“从”;老婆化妆要等“得”,老婆花钱要舍“得”,老婆生气要忍“得”,老婆生日要记“得”。
可否预测新成语的出现?通俗化趋势? 《中国语言生活状况报告》2011年前50个高频成语: 前所未有, 见义勇为, 坚定不移, 全力以赴, 脱颖而出, 众所周知, 无论如何, 丰富多彩, 一如既往, 不可思议, 愈演愈烈, 引人注目, 实事求是, 层出不穷, 与时俱进, 不可或缺, 与众不同, 独一无二, 供不应求, 千方百计, 名副其实, 深入人心, 显而易见, 出人意料, 可想而知, 当务之急, 淋漓尽致, 截然不同, 不约而同, 息息相关, 雪上加霜, 如火如荼, 不得而知, 小心翼翼, 不知不觉, 迫不及待, 一应俱全, 意想不到, 源源不断, 水涨船高, 突如其来, 毋庸置疑, 想方设法, 莫名其妙, 沸沸扬扬, 拭目以待, 全心全意, 耳熟能详, 风口浪尖, 成千上万。 《新华成语词典》,商务印书馆,2002 --------------------------------------------------------------------- 调查研究, 自力更生, 艰苦奋斗
支持成语知识库继续发展的新计划: 1)国家自然科学基金项目“隐喻识别与理解的理论与方法研究”(2012年-2015年,王治敏博士主持,俞士汶参加) 2)国家自然科学基金项目“汉语全文词义标注关键技术研究”(2013年-2016年,曲维光教授主持,朱学锋参加) 3)北京大学计算语言学教育部重点实验室开放课题“汉语和英语多词表达中的隐喻研究”(2013年起,王雷主持)。 4)争取973课题“融合三元空间的中文语言知识与世界知识获取和组织(2014CB340504)”的支持。 成语知识库的研究课题
主要内容 • 现代汉语中的成语及其特点 • 现代汉语成语知识库的建设理念 • 成长中的北大成语知识库 • 有关成语和成语知识库的研究课题 • 结语与致谢
结语与致谢 座右铭:“路漫漫其修远兮,吾将上下而求索”。 感谢第十四届中国少数民族语言文字信息处理学术研讨会和于洪志教授、赵小兵教授的邀请,让我们获有机会来到美丽的兰州,与大家交流,十分荣幸。 谢谢大家耐心听讲。 欢迎大家访问 北京大学计算语言学教育部重点实验室 www.icl.pku.edu.cn/klcl/ 北京大学计算语言学研究所 www.icl.pku.edu.cn 北京大学软件与微电子学院语言信息工程系 www.ss.pku.edu.cn