文档详情

CLEC中国英语学习者语料库.doc

发布:2017-08-17约1.58万字共11页下载文档
文本预览下载声明
CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。 表1 CLEC语料分布 类型 词次 ST2 208088 ST3 209043 ST4 212855 ST5 214510 ST6 226106 总计 1070602 ? ? 言语失误标注 原则 ?1.???????? 简单合理,易于系统操作。参与标注的人比较多,分类表过于繁复,就难于掌握。我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。每一类里再用数目字细分。如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。 ?2.???????? 分类表的类别要适中。过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。现在的分类表有61个失误码,是属于中等规模的分类表。 ?3.????? 提供足够的失误信息(失误本身、失误类型和失误发生范围)。例如In the past, people are [vp6, 4-] kind to each other…, 失误用方括号表示,放在失误之后。 [vp6]In the past, people are [vp6,4-]kind to each other……,[vp6,4-] are 为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。要联系这4个词,才能判断areare这个词用错了。 ?4.????? 开放性。容许研究者根据需要对失误类型进行补充或进一步再分出细类。例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。这需要把sn8的失误全部检索出来,然后定出第三级的分类范畴,如sn81,sn82,等等。 5.???????? 对语体或失误的来由暂不作标注,因为这需要标注者较多的主观判断,更难以统一。 言语失误分类表(总数:61) 词形 动词短语 名词短语 代词 码 类型 码 类型 码 类型 码 类型 fm1 Spelling vp1 pattern np1 pattern pr1 Reference fm2 word building vp2 set phrase np2 set phrase pr2 anticipatory it fm3 capitalization vp3 agreement np3 agreement pr3 Agreement ? ? vp4 finite/non-finite np4 case pr4 Case ? ? vp5 non-finite np5 countability pr5 wh- ? ? vp6 tense np6 number pr6 Indefinite ? ? vp7 voice np7 article ? ? ? ? vp8 mood np8 quantifiers ? ? ? ? vp9 modal/auxiliary np9 other determiners ? ? 形容词短语 副词 介词短语 连词 码 类型 码 类型 码 类型 码 类型 aj1 pattern ad1 order pp1 pattern cj1 pattern aj2 set phrase ad2 modification pp2 set phrase cj2 set phrase aj3 degree ad3 degree ? ? ? ? aj4 -ed/-ing confusion ? ? ? ? ? ? aj5 predicative/attributive ? ? ? ? ? ? 词语 搭配 句子 码 类型 码 类型 码 类型 wd1 order cc1 noun/noun
显示全部
相似文档