文档详情

现代汉语语料库加工规范词语切分与词性标注词..._53001.doc

发布:2017-10-31约9.22千字共10页下载文档
文本预览下载声明
《现代汉语语料库加工规范——词语切分与词性标注》词性标记 代码名称 帮助记忆的诠释 例子 及 注解 1 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 绿色/n 似/d 锦/Ag , 2 a 形容词 取英语形容词adjective的第1个字母 [重要/a 步伐/n]NP , 美丽/a , 看似/v 抽象/a , 3 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。 [积极/ad 谋求/v]V-ZZ , 幻象/n 易/ad 逝/Vg , 4 an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。 [外交/n 和/c 安全/an]NP-BL , 5 Bg 区别语素 区别词性语素。区别词代码为b,语素代码g前面置以B。 赤/Ag 橙/Bg 黄/a 绿/a 青/a 蓝/a 紫/a , 6 b 区别词 取汉字“别”的声母。 女/b 司机/n, 金/b 手镯/n, 慢性/b 胃炎/n, 古/b 钱币/n, 副/b 主任/n, 总/b 公司/n 单音节区别词和单音节名词或名语素组合,作为一个词,并标以名词词性n。 雄鸡/n, 雌象/n, 女魔/n, 古币/n 少数“单音节区别词+双音节词”的结构作为一个词。 总书记/n , 7 c 连词 取英语连词conjunction的第1个字母。 合作/vn 与/c 伙伴/n 8 Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。 了解/v 甚/Dg 深/a , 煞/Dg 是/v 喜人/a , 9 d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。 进一步/d 发展/v , 10 e 叹词 取英语叹词exclamation的第1个字母。 啊/e ,/w 那/r 金灿灿/z 的/u 麦穗/n , 11 f 方位词 取汉字“方”。 军人/n 的/u 眼睛/n 里/f 不/d 是/v 没有/v 风景/n , 12 h 前接成分 取英语head的第1个字母。 许多/m 非/h 主角/n 人物/n , 办事处/n 的/u “/w 准/h 政府/n ”/w 功能/n 不断/d 加强/v , 13 i 成语 取英语成语idiom的第1个字母。 一言一行/i , 义无反顾/i , 14 j 简称略语 取汉字“简”的声母。 [德/j 外长/n]NP , 文教/j , 15 k   后接成分。 少年儿童/l 朋友/n 们/k , 身体/n 健康/a 者/k , 16 l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。 少年儿童/l 朋友/n 们/k , 落到实处/l , 17 Mg 数语素 数词性语素。数词代码为m,语素代码g前面置以M。 甲/Mg 减下/v 的/u 人/n 让/v 乙/Mg 背上/v , 凡/d “/w 寅/Mg 年/n ”/w 中/f 出生/v 的/u 人/n 生肖/n 都/d 属/v 虎/n , 18 m 数词 取英语numeral的第3个字母,n,u已有他用。 1.数量词组应切分为数词和量词。 三/m 个/q, 10/m 公斤/q, 一/m 盒/q 点心/n , 但少数数量词已是词典的登录单位,则不再切分。 一个/m , 一些/m , 2. 基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为 m 。 一百二十三/m,20万/m, 123.54/m, 一个/m, 第一/m, 第三十五/m, 20%/m, 三分之二/m, 千分之三十/m, 几十/m 人/n, 十几万/m 元/q, 第一百零一/m 个/q
显示全部
相似文档