文档详情

自动作文评分中词汇接续错误自动识别的研究.doc

发布:2018-11-03约9.98千字共19页下载文档
文本预览下载声明
自动作文评分中词汇接续错误自动识别的研究   摘 要: 自动作文评分中一项重要的特征就是语言错误。该特征的准确识别和提取,既能为作文评分提供依据,又可为学生提供详尽的语言使用情况的反馈。通过统计大规模英语语料库中词汇前后接续的频次,获得本族语词汇二元接续数据,并据此对中国大学生英语作文进行标注并分析低频接续情况,发掘出低频接续但属于正确使用的语言规律,构造过滤规则。结合使用过滤规则后与词频分布数据,词汇接续错误识别准确率接近69%,从而能够为自动作文评分和反馈提供更多的支持。   关键词: 二元接续;错误识别;大学英语写作;自动作文评分   中图分类号:H319.3文献标识码:A文章编号:1001-5795(2010)07-0015-0006      我国的英语教学近年来取得了显著的成绩,与早些年相比,大学生英语水平已有显著提高,但是英语写作却一直是一个薄弱环节。究其原因,近年来高校师生比的扩大,教师对于英语作文的批改乏力是一个直接的原因。自然语言处理技术的发展,尤其是近年来自动作文评分的相关研究为学生写作提供自动评分与反馈提供了一个可能的解决方案。自动作文评分中一项重要的特征就是语言错误。该特征的准确识别和提取,既能为作文评分提供依据,又可为学生提供详尽的语言使用情况的反馈,为作文修改提供参考,从而提高学生写作水平。但由于中国学生英语写作中的语言错误种类繁多,英语语言使用错误检查的召回率仍然很低。本文结合词汇二元接续的相关研究和大学英语作文词汇使用规律,深入研究了中国大学生英语作文中词汇二元接续正确性情况,能够较准确地发现词汇邻接错误,向英语学习者提供准确性较高的疑似词汇邻接错误的反馈,为自动作文评分提供支持。      1 二元接续的概念和应用      N元语法模型,尤其是二元语法和三元语法,广泛应用于语音识别、音字转换、词性标注、语义消歧、以及机器翻译等方面,也可以用于语言使用的正确性判断。例如,要判断词A接续词B是否正确,可以利用大型语料库计算序列AB间的转移概率,如果概率足够大,可认为这个接续是正确的,否则认为是不正确的。这是自动作文评分系统E-rater V.2中一个重要的特征提取方法(Attali Burstein, 2006: 8)。但该方法存在一定的问题,即由于某些词汇的接续能力很强,其后可以接续很多不同的词汇,这就造成了即使某一词汇在其后出现很多次,但其概率仍然很低,所以在语言使用正确性判断方面,直接使用两个词在大规模语料库中邻接的绝对频次效果更好。即两词前后邻接次数低于某一阈值,则这两个词的接续就可能是不正确的。词汇接续统计方法在宋柔的汉语校对系统研究中得到了很好的应用(宋柔,2001:47-48)。   当然,不管是使用词汇接续概率还是绝对频次来进行语言使用正误的判断都不是绝对的。首先,语言从语法上来说有其内部层次结构,而不是简单的线性结构,更遑论其语义甚至语用方面。其次,即便是针对句子的线性结构进行研究,由于语料库的大小和其中语言材料的语域限制,很多词汇接续也不会出现,或者出现频次很少,也就是统计语言模型研究中的数据稀疏问题。这就使得自动判定的语言错误不可能百分之百正确,只能作为疑似错误反馈给人进行最后的判定。但自动判定的召回率和准确率直接决定了错误识别涵盖的范围和人工判定工作量的大小。由于本研究针对语言错误的自动识别,“错误识别的准确率”术语较长,为清晰起见,本研究中准确率又称含错率,定义如下:   召回率 = 二元接续中包括的错误数量 / 学生作文中错误总数量 * 100%   准确率(含错率) = 包含错误的二元接续数量 / 低于某一阈值的所有二元接续数量 * 100%   本研究力图提高我国大学生英语作文中词汇二元接续错误自动识别的召回率和准确率。   葛诗利: 自动作文评分中词汇接续错误自动识别研究      2 研究设计      2.1 作文语料来源和预处理   本研究的中国大学生作文语料主要来自中国学习者英语语料库(CLEC)的st3子库,少部分取自关兴华、陈建辉(2004)编著的《大学生英语作文》,共660篇,其中2分60篇,5、8、11和14分各150篇。由于本研究的目标并非词语拼写和简单语法错误,因此,预处理中利用现有技术对作文中的这些语言错误进行识别和改正。错误改正主要是以MS Word 2003的拼写和语法检查器为标准,能够发现错误并且所提供的改正中有正确选项的,进行改正,否则不作改动。   预处理中还对语料采用美国斯坦福大学概率词性标注软件(Stanford NLP Group Part-of-Speech tagger)(Toutanova,2009)标注词性。标注集采用宾州树库词性标注集,抽样统计词性标注准确率达97.6%
显示全部
相似文档