380 likes | 572 Views
信息处理用现代汉语词类标记集规范 . 冯志伟. 引言. 用于现代汉语信息处理系统中的汉语词类和词类标记集有很多种设计方案。经过多年的研究,人们对中文信息处理系统中的词类问题,已经有了一个基本统一的认识,词类体系大类大致相同,没有太大实质性的分歧,不一致主要体现在大类数量不太一致,术语不太一致,有的把某一类作为小类来处理,有的升为大类。 各家信息处理系统词类标记集的不统一给中文信息处理系统的数据交换带来了困难。现在越来越需要有一套面向信息处理的、统一的现代汉语词类标记集,以减少数据转换的麻烦。 《 信息处理用现代汉语词类标记集规范 》 正是为了满足这种需要而设计的。
E N D
信息处理用现代汉语词类标记集规范 冯志伟
引言 • 用于现代汉语信息处理系统中的汉语词类和词类标记集有很多种设计方案。经过多年的研究,人们对中文信息处理系统中的词类问题,已经有了一个基本统一的认识,词类体系大类大致相同,没有太大实质性的分歧,不一致主要体现在大类数量不太一致,术语不太一致,有的把某一类作为小类来处理,有的升为大类。 • 各家信息处理系统词类标记集的不统一给中文信息处理系统的数据交换带来了困难。现在越来越需要有一套面向信息处理的、统一的现代汉语词类标记集,以减少数据转换的麻烦。《信息处理用现代汉语词类标记集规范》正是为了满足这种需要而设计的。 • 《信息处理用现代汉语词类标记集规范》吸收了语言学家的研究成果,并兼顾各家的分类体系,是一套从信息处理的实际要求出发的现代汉语词类标记集的规范,它提供了现代汉语书面语词类标记集的符号体系,使得各种中文信息处理系统能够用较为统一的、各方都接受的词类标记体系标注各自的系统。
适用范围 • 本规范适用于汉语语料库的深加工和汉语句法自动分析等汉语信息处理领域,它解决词类标记集的统一问题,具有开放性和灵活性,以便适用于持不同学术观点的中文信息处理系统。 • 本规范不妨碍对词类问题的进一步研究,它不是对词类问题的总结、评述,更不是词类研究的终结。
词类标记集规范的确定原则 • 语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起某些参考作用。 • 兼类性原则。允许有兼类。根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。 • 覆盖性原则。词类标记集中的大类应能覆盖现代汉语的全部词。
有关说明 • 为满足计算机处理真实文本的需要,《信息处理用现代汉语词类标记集规范》中的符号,不仅要覆盖语言学意义上的词,还要覆盖比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等,以及比词更大的单位,如成语、习用语、简称、略语以及标点符号、非汉字符号等。只有这样,《信息处理用现代汉语词类标记集规范》才能提供中文信息处理所需的信息,因此本规范的词类标记集包括汉语词类信息及上述那些比词大的或比词小的单位以及标点符号、非汉字符号等信息。 • 本规范中的大类是各中文信息处理系统中较为一致的部分,把它们列为大类并不意味着对词类体系的限制,各中文信息处理系统可根据自己的学术观点采用不同的词类体系,但应包含本规范中所列举的大类。
名词(n) • 名词主要用来充任主语和宾语。例:“人民”、“玻璃”、 “孔繁森”、 “中国”、 “共产党”、“杯子”、 “女方”等。 • 小类 • 专有名词(np):指称人和事物名称的名词。(a) 人名(nph):包括姓(复姓)、名、姓名、外号等。(b) 地名(npp):如“北京”、“王府井”等名词。(c) 团体机构名(npi):如“共产党”等名词。 • 普通名词(ng):如“人民”、“玻璃”、“杯子”、“女方”等名词。(a) 无量名词(ngq):如:“词汇”、“女方”等不受任何量词修饰的普通名词。 • 时间名词(nt)/时间词 (t):如“今天”、“春节”、“宋朝”、“现在”、“春天”、“早晨”、“星期六”等名词。 • 处所名词(ns)/处所词(s):如“近郊”、“两侧”、“空中”、“高处”、“隔壁”等名词。 • 方位名词(nl)/方位词(f):如“上”、“下”、“前”、“后”、“左”、“右”、“东”、“中间”、“前面”、“外头”等名词。(a) 单纯方位名词(nfm)/单音节方位词(fm):如:“上”、“下”、“前”、“后”、“东”、“西”、“南”、“北”、“左”、“右”、“里”、“外”、“中”、“内”、“间”、“旁”等方位词。(b) 复合方位名词(nfd)/双音节方位词(fd):如:“前面”、“中间”、“之后”等方位词。
数词(m) • 数词一般不单独充任句子成分,在一定条件下能充任主语或宾语。例:“一”、“第一”、“百”、“零”、“百万”、“乙”、“俩”等。 • 小类 • 基数词(mc):如“三”、“五十”、“二百零三”等表示数目的数词。(a) 系数词(mcx):如“一、二、三、四、……十”、“两”等能单独表示一个确切数目的数词。(b) 位数词(mcw):如:“十”、“百”、“千”、“万”、“亿”等能代表一个基本位数的数词。 • 序数词(mo):如:“第一”等表示次序的数词。一般由数前接成分加上基数词构成。(a) 序列词(mos):如“甲、乙、丙、丁、戊、己、庚、辛”和“子、丑、寅”、“甲午、庚子”等表示序列的数词。 • 数量数词(mq):如: “俩”、“仨”等。 • 助数词(mu):如:“分之”、“又”、“点”等。
量词(q) • 量词不能单独充任句子成分,常跟数词组成数量短语修饰名词或动词。例:“个”、“群”、“克”、“把”、“次”、“种”、“些”、“人次”、“小时”等。 • 小类 • 名量词(qn):常和名词连用的量词。(a) 个体量词(qns) :如:“位”、“辆”、“张”等表示个体的量词。(b) 度量词(qnm):如:“克”、“千米”等计量单位。(c) 复合量词(qnc):如:“人次”、“架次”、“吨公里”等量词。(d) 不定量词(qni) : 如:“点”、“些”等表示不定量的量词。 • 动量词(qv): 如:“次”、“回”、“趟”等常和动词连用的量词。 • 时量词(qt):如:“天”、“小时”等表示时间的量词。
形容词(a) • 主要能充任定语、谓语。例:“好”、“红”、“勇敢”、“危险”、“漂亮”、“突然”等。 • 小类 • 性质形容词 (aq):如“大”、“小”、“伟大”、“美丽”等形容词。 • 情状形容词(ad):如:“早”、“晚”、“及时”、“突然”、“偶然”、“完全”、“热情”、“勉强”等既能加“的”充任定语,又能充任谓语,又能充任状语的形容词。 • 非谓形容词(an)/区别词(b):如“半自动”、“初等”、“淡红”、“内向型”、“公共”等形容词。 • 唯谓形容词(ap):如:“料峭”、“集中”、“分明”等形容词。 • 状态形容词(as)/状态词(z):如“亮堂堂”、“白花花”、“殷红”、“灰不溜秋”等形容词。
动词(v) • 主要能充任谓语。例:“是”、“应该”、”躺“、“写”、“学习”、 “希望”、“给”、“选举”等。 • 小类 • 助动词 (vu) :如:“应该”、“能”、“可以”、“愿意”等动词。 • 趋向动词 (vd) :如: “下去”、“起来”等动词。 • 系动词 (vl) :如:“系”、“为”、“乃”、“是”等动词。 • 不及物动词 (vi) :如:“躺”、“咳嗽”等动词。 • 及物动词 (vt):如:“取得”、“喜欢”等动词。(a) 体宾动词 (vtn) :如:“姓”、“写”、“骑”、“买”、“捆”、“驾驶”等动词。(b) 小句宾动词 (vts):如:“希望”、“认为”等带主谓结构或动词结构作宾语的一类动词,。(c) 双宾动词 (vtd) :如:“给”、“问”、“送”、“还”等动词。(d) 兼语动词 (vtc) :如:“选举”、“让”、“派”等动词。(e) 形式动词 (vtf):如:“进行”、“加以”等动词。
副词(d) • 一般只能充任状语。例:“不”、“很”、“都”、“忽然”、“最”、“刚刚”等。 • 小类 • 程度副词(dd):如:“很”、“十分”、“非常”等副词。 • 关联副词 (dc):如:“只有……才……”、“即使……也……”中的“才”和“也”等副词。 • 可修饰名词性成分的副词(dn):如:“就”、“仅”等副词。
代词(r) • 代词能替代名词、形容词、动词、副词等词或词组,能在篇章中起联系作用,能在语境中起指别作用。例:“你”、“我”、“他们”、“这”、“那儿”、“哪儿”、“谁”、“什么”、“怎样”、“这样”等。 • 代词的数量有限,它的句法结构功能和短语组合功能可逐个进行分析。
介词 (p) • 介词不能单独充任句子成分。介词短语能充任状语或补语,有的再加“的”后可以充任定语。例:“以”、“于”、“对于”、“关于”、“在”等。
连词(c) • 用于连接词、短语、句子,以表达它们之间的相互关系。例:“和”、“与”、“而且”、“或者”、“虽然”、“但是”、“只要”、“因为”等。 • 小类 • 并立连词(cc):如:“和”、“及”、“与”、“则”、“并且”、“与其”等连词。 • 从属连词(cs):如:“因为”、“虽然”、“只要”、“如果”、“即使”、“以便” 等连词。
助词(u) • 助词不能单独充任句子成分,大都附着在词、短语或句子后面,个别的附着在词前面,起不同的句法作用。例:“的”、“地”、“得”、“了”、“着”、“过”、“所”、“似的”、“等等”、“罢”等。 • 小类 • 结构助词(us):如“的”、“地”、“得”等助词。 • 动态助词(ua):如“着”、“了”、“过”等助词。 • 比况助词(uc):如“似的”、“一样”等助词。 • 替代助词(ur):如“等”、“等等”、“云云”等助词。 • 语气助词(um)/语气词(y):如“了”、“的”、“呢”、“吗”、“吧”、“罢”、“了“、“啊”等助词。
叹词(e) • 叹词在句中的位置比较灵活,通常不与其他词发生特定的关系,也不充任句子成分,能独立成句;叹词后一定有停顿,因此书面上叹词后常有标点符号。例:“唉”、“哎呀”、“嗯”、“哼”、“喂”等。
拟声词(o) • 可以独立成句或在句中作插入语。拟声词加“的”可以作定语加“地”可以作状语。例:“哗啦”、“唧哩咕咚”、“扑通通”、“滴答”、“轰轰”等。
习用语(i) • 习用语是汉语中的固定用法,包括成语、惯用语、谚语、格言等。它们在汉语中语义内容丰富,稳定性强。 • 小类 • 名词性习用语 (in):如:“海市蜃楼”、“井底之蛙”等。 • 谓词性习用语 (ip):如:“众口难调”、“吃老本”、“碰钉子” 、“通情达理”等。 • 连词性习用语(ic):如:“总而言之”、“由此可见”、“一方面……,一方面……”、“一则……二则……”等在句段间起关联作用并且习惯上常在一起搭配使用的词或短语。
简称和略语(J) • 简称和略语是汉语中专有名词或常用语的简略表达形式。一般具有地域性或行业性,有的简称、略语使用的范围很广,生命力很强。简称、略语在句中通常起名词或区别词的作用,少数有动词的作用。对于在句中作用很明确的简称、略语,可归入相应的类。如:“奥运”、“中共”等可归入名词。 • 小类 • 名词性简称和略语 (jn) :如:“人大”、“作协”、“奥运会”等起名词作用的简称略语。 • 动词性简称和略语 (jv) :如:“离退休”等起动词作用的简称略语。 • 形容词性简称和略语 (ja):如:“短平快”、“中小(型)”等简称略语。
前接成分(前缀)(h) • 前接成分是一种辅助的构词成分,加在词或语素的前面,构成合成词。一般说来,只表示某种附加的或语法的意义。例:“阿”、“老”、“反”、“超”、“自”等都是前接成分(前缀)。 • 小类 • 名前接成分 (hn):如:“阿”、“老”、“准”、“自”等可构成名词的前接成分。 • 数前接成分 (hm):如:“第”、“初”等可构成数词的前接成分。
后接成分(后缀)(k) • 后接成分是一种辅助的构词成分,加在词或语素后面,构成合成词。一般说来,只表示某种附加的或语法的意义,例:“子”、“头”、“儿”、“性”、“学”、“论”、“界”等。 • 小类 • 名后接成分 (kn):如:“子”、“儿”、“性”、“家”、“派”、“界”等可构成名词的后接成分。 • 动后接成分 (kv):如:“化”等可构成动词的后接成分。
语素字(g) • 语素指汉字字符集中,没有被作为单音节词归入上述各类中的具有意义的汉字,如:“讯”、“究”、“洁”等是不成词语素。 • 小类 • 名词性语素 (gn):如:“讯”、“民”等。 • 动词性语素 (gv):如:“究”、“观”、“视”等。 • 形容词性语素 (ga):如:“洁”、“殊”等。
非语素字(x) • 非语素字指汉字字符集中单独使用时不具有意义的汉字,如:“葡”、“萄”、“琵”、“琶”、“玻”、“璃”等。 • 非语素字与其他的字组成单词时,才显示出它的意义。如,“葡萄”、“琵琶”、“玻璃”。
其他(w) • 未知词(wu):指在文本的处理过程中,无法归入上述类别的词,这些词往往要在后面的处理步骤中作进一步的加工处理。 • 标点符号(wp) • 阿拉伯数字串(wd) • 其他符号(wo),如外文字符串等。
规范的使用 • 中文信息处理系统在使用本规范时,应注意规范中第一个层次上的十九个基本词类是各个词类标注系统的标注基础,在这个基础上各个系统可以根据自己的体系确定大类和小类。 • 规范中的小类是对信息处理系统中常用小类的列举,各个系统可以根据需要选择使用,也可以增加小类。 • 兼类词的标注方法为把它所兼的类用“/”连接起来,如,n/v表示名动兼类词,n/a/v表示名动形兼类词等等。
标记的记忆提示(1) • 形容词(a):a取自英语ADJECTIVE的第一个字母。 • 情状形容词(ad):d取自英语ADVERBIAL的第二个字母。 • 非谓形容词(an): n取自英语NON-PREDICTIVE的第一个字母。 • 唯谓形容词(ap): p取自英语PREDICATIVE的第一个字母。 • 性质形容词(aq): q取自英语QUALITATIVE的第一个字母。 • 状态形容词(as): s取自英语STATE的第一个字母。 • 区别词(b): b取自汉字“别”的声母。 • 连词(c) : c取自英语CONJUNCTION的第一个字母。 • 并立连词(cc): c取自英语COORDINATE的第一个字母。
标记的记忆提示(2) • 从属连词(cs):s取自英语SUBORDINATE的第一个字母。 • 副词(d): d取自英语ADVERB的第二个字母。 • 关联副词(dc): c取自英语CORRELATIVE的第一个字母。 • 程度副词(dd): d取自英语DEGREE的第一个字母。 • 可修饰名词性成分的副词(dn): n取自英语NOUN的第一个字母。 • 叹词(e): e取自英语EXCLAMATION的第一个字母。 • 方位词(f): f取自汉字“方”的声母。 • 双音节方位词(fd): d取自英语DISYLLABLE的第一个字母。 • 单音节方位词(fm): m取自英语MONOSYLLABLE的第一个字母。
标记的记忆提示(3) • 语素字(g):绝大多数语素都能作为合成词的“词根”,g取汉字“根”的声母。 • 形容词性语素(ga): a取自英语ADJECTIVE的第一个字母。 • 名词性语素(gn): n取自英语NOUN的第一个字母。 • 动词性语素(gv): v取自英语VERB的第一个字母。 • 前接成分(h): h取自英语HEAD的第一个字母。 • 数前接成分(hm): m取自英语NUMERALS的第三个字母。 • 名前接成分(hn): n取自英语NOUN的第一个字母。 • 习用语(I): i取自英语IDIOM的第一个字母。 • 连词性习用语(ic): c取自英语CONJUNCTION的第一个字母。
标记的记忆提示(4) • 名词性习用语(in): n取自英语NOUN的第一个字母。 • 谓词性习用语(ip): p取自英语PREDICATE的第一个字母。 • 简称和略语(j): j取自汉字“简“的声母。 • 形容词性简称和略语(ja): a取自英语ADJECTIVE的第一个字母。 • 名词性简称和略语(jn): n取自英语NOUN的第一个字母。 • 动词性简称和略语(jv): v取自英语VERB的第一个字母。 • 后接成分(k) • 名后接成分(kn): n取自英语NOUN的第一个字母。 • 动后接成分(kv): v取自英语VERB的第一个字母。
标记的记忆提示(5) • 数词(m): m取自英语NUMERALS的第三个字母。 • 基数词(mc): c取自英语CARDINAL的第一个字母。 • 位数词(mcw): w取自汉字“位”的声母。 • 系数词(mcx): x取自汉字“系”的声母。 • 序数词(mo): o取自英语ORDINAL的第一个字母。 • 序列词(mos): s取自英语SERIAL的第一个字母。 • 数量数词(mq): q取自英语QUANTITY的第一个字母。 • 助数词(mu): u取自英语FUNCTIONAL的第二个字母。
标记的记忆提示(6) • 名词(n): n取自英语NOUN的第一个字母。 • 普通名词(ng): g取自英语GENERAL的第一个字母。 • 无量名词(ngq): q取自英语QUANTITY的第一个字母。 • 方位名词(nl): l取自英语LOCATION的第一个字母。 • 专有名词(np): p取自英语PROPER NOUN的第一个字母。 • 人名(nph): h取自英语HUMAN的第一个字母。 • 团体机构名(npi): i取自英语INSTITUTION的第一个字母。 • 地名(npp): p取自英语PLACE的第一个字母。 • 处所名词(ns): s取自英语SPACE的第一个字母。 • 时间名词(nt): t取自英语TIME的第一个字母。
标记的记忆提示(7) • 拟声词(o): o取自英语ONOMATOPOEIA的第一个字母。 • 介词(p): p取自英语PREPOSITION的第一个字母。 • 量词(q): q取自英语QUANTITY的第一个字母。 • 名量词(qn): n取自英语NOUN的第一个字母。 • 复合量词(qnc): c取自英语COMPOUND的第一个字母。 • 不定量词(qni): i取自英语INDEFINITE的第一个字母。 • 度量词(qnm): m取自英语MEASURE的第一个字母。 • 个体量词(qns): s取自英语SPECIFIC的第一个字母。 • 时量词(qt): t取自英语TIME的第一个字母。 • 动量词(qv): v取自英语VERB的第一个字母。
标记的记忆提示(8) • 代词(r ): r取自英语PRONOUN的第二个字母。 • 处所词(s): s取自英语SPACE的第一个字母。 • 时间词(t): t取自英语TIME的第一个字母。 • 助词(u): u取自英语FUNCTIONAL的第二个字母。 • 动态助词(ua):a取自英语ASPECTUAL的第一个字母。 • 比况助词(uc): c取自英语COMPARISION的第一个字母。 • 语气助词(um): m取自英语MODAL的第一个字母。 • 替代助词(ur): r取自英语REPLACE的第一个字母。 • 结构助词(us):s取自英语STRUCTURE的第一个字母。
标记的记忆提示(9) • 动词(v): v取自英语VERB的第一个字母。 • 趋向动词(vd): d取自英语DIRECTIVE的第一个字母。 • 不及物动词(vi): i取自英语INTRANSITIVE的第一个字母。 • 系动词(vl): l取自英语LINKING的第一个字母。 • 及物动词(vt): t取自英语TRANSITIVE的第一个字母。 • 兼语动词(vtc): c取自英语CAUSATIVE的第一个字母。 • 双宾动词(vtd): d取自英语DITRANSITIVE的第一个字母。 • 形式动词(vtf): f取自英语FORMAL的第一个字母。 • 体宾动词(vtn): n取自英语NOUN的第一个字母。 • 小句宾动词(vts): s取自英语SENTENCE的第一个字母。 • 助动词(vu): u取自英语AUXILIARY的第二个字母。
标记的记忆提示(10) • 其他(w) • 阿拉伯数字串(wd):d取自英语DIGITAL的第一个字母。 • 其他符号(wo): o取自英语OTHERS的第一个字母。 • 中文标点符号(wp): p取自英语PUNCTUATION的第一个字母。 • 未知词(wu): u取自英语UNKNOWING WORD的第一个字母。 • 非语素字(x) • 语气词(y):y取自汉字“语”的声母。 • 状态词(z):z取自汉字“状”声母的第一个字母。
谢谢 • Thank you!