• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于Coh-Metrix3.0的大学英语词汇与四级真题词汇的比对研究

林静 邵祖
  
学术·社科集
2022年11期
泰州职业技术学院基础部 江苏泰州 225300

打开文本图片集

【摘要】本研究使用Coh-Metrix3.0工具对近年来的大学英语四级真题和复旦大学出版社的《21世纪大学英语应用型综合教程》(第三版)(1-4册)的104篇阅读语篇词汇进行难度比对分析。分析结果显示,四级文本在单词音节数、单词字母数以及句子的平均数等均大于综合教程中的文本。Flesh金凯德年级水平也说明综合教程的文本适合美国初中学生,而四级文本更适合10-12年级的学生阅读。

1 引言

在外语教学与外语考试中,阅读理解往往是占比较重的一块,无论是教师的教学还是学生的应试,都需要双方投入较多的精力。目前中国的高校中,大学英语四、六级考试是比较权威并且社会认可度较高的考试,了解四六级考试中阅读理解部分的语篇难度,有助于我们在编写大学英语阅读教材时有的放矢。

近几十年来,由于计算机科学技术的不断发展为研制和开发文本分析工具提供了可能性。美国田纳西州孟菲斯大学的McNamara等人从2002年开始研发一个基于网络的文本分析工具--Coh-Metrix (Automated Cohesion Metric Tool),2004年推出1.0版本,到2014年推出3.0版本,从2017年开始,该版本又有了较大的变化,之前的版本中都需要经历如下步骤:1)Title:文本的名称或者编号;2)Genre:从science, narrative和information中选择最接近的一种体裁;3)source:文章来源 ;4)Job Code:每次操作的代码或者名称;5)LSA Space:潜语义分析的文本空间;6)将需处理的文本复制粘贴到空白框内;点击“submit”提交。但是2017年更新后的版本已经不需要重复上面的1)-5),只需要在左边的文本框内直接输入文本,或者把整理好的文本复制粘贴即可,文本框下方有一行验证码,不同的文本对应不同的验证码,如果验证码输入错误,也会重新生成一个新的验证码,输入正确的验证码后,点击左下角的“submit”,系统会对文本自动分析,生成一个包含有106个文本特征的分析结果,数秒之后,文本分析的结果在界面右侧显示,每行为一个文本特征,数据结果的左上角有一个“Save Data”按钮,点击该按钮,文本分析的结果将自动保存在名为CohMetrixOutput的Excel文件中。如果想要对多个文本的结果进行比较,在点击“submit”等分析结果出来后,不要点击“Save Data”,在空白框中重新输入或者复制粘贴新的文本,第一个文本数据分析自动显示为Text,第二个是Text2,后面的文本依次类推,在此文件中,每列为一个文本特征。待所有的文本都分析完后,再点击“Save Data”,这样所有的数据最后就会呈现在一个表格中。

2 研究设计

2.1 研究工具

本文使用网络版Coh-Metrix3.0对阅读文本进行自动分析处理。如果文本的字数不超过15000词,其研发团队提供免费的服务。

2.2 研究对象

本文使用的语篇分析总共104篇,分两组,包括《21世纪大学英语应用型综合教程(第三版)》(1-4册)(以下简称综合教程)的课文64篇,以及2018年12月至2021年12月的四级真题,为了保证文本的可对比性,仅整理每套试卷中阅读文章的最后两篇,也就是需做单项选择题的文本,共计40篇。研究者将每篇文章都整理成TXT文本,所有文章中的中文注释都删除,文章的题目也删除,仅保留正文,将每篇文本都保存为一个文档。

2.3 数据收集

按引言中所提到的文本输入模式,笔者共获得了104篇文本的数据,每一篇文本都有106行数据分析,106行数据又分为11个模块:

3 结果与讨论

本文主要研究两组阅读中词汇的难易,为了研究的可操作性,本文从106个变量中抽取了文本单词数、单词平均音节数、单词平均字母数、句子平均词数、Flesh金凯德年级水平等5个变量。分析结果如下图所示:

根据表格,《综合教程》中文本的单词数从第一册到第四册呈上升趋势(922.13>913.38>860.44>763.88),文本越长说明在文本上所花的阅读时间会越多,所以仅从每篇文本的单词量分析可知《综合教程》的编排是一个循序渐进的过程。与《综合教程》比较,四级真题的阅读词汇量明显偏少,笔者分析主要是受考试时间的限制。四级阅读的篇章包括三种题型:选词填空一篇、快速阅读一篇、常规阅读两篇。四篇阅读文章要在40分钟内完成,因而最后两篇文章的篇幅不可过长,主要考察学生在有限的时间内快速获取信息的能力,所以每篇文章平均篇幅350字左右是适宜的。而大学英语教材中建议每个单元(两篇文章)要在8个学时内完成,文章内容需要精读后完成相关练习。通过比对单词平均音节数和单词平均字母数,可以发现四级真题的单词无论是音节还是字母数都大于《综合教程》的单词,根据以往的研究表明,叙事文本通常带有口语色彩,话题的熟悉度意味着叙述者会使用音节较短①的词汇,由此可见,《综合教程》的话题比四级阅读更为读者所熟悉,口语特点更加明显。Flesh金凯德年级水平公式显示四级真题的数值10.88远远大于1-4册的数值。该公式计算如下:Flesh Kincaid Grade Level=0.39×ASL+11.8×ASW-15.59。其中ASL(average sentence length)指文本的单词总数除以文本的句子总数而得出的句子的平均词数;ASW(average syllable per word)是文本的单词音节总数除以单词总数得出的每个单词的平均音节数。该公式的得分对应于美国中小学各个年级(K-12)的水平。根据分值得知,《综合教程》的文本适合美国美国初中6-8年级学生阅读,大约13-15岁,而四级文本适合高中10-12年级学生,年龄在16-18岁。

4 总结与思考

Coh-Metrix3.0作为一种免费的在线工具,可以多角度对文本的词汇语法和语义特征进行全方位的分析,涵盖11个模块。本文使用该工具对《21世纪大学英语应用型综合教程》(第三版)(1-4册)以及40篇四级真题阅读进行了词汇的比对分析,分析结果显示,受考试时间的限制,四级真题的篇幅字数明显少于《综合教程》的阅读文本;但是四级阅读无论是单词的长度、单词的音节数以及句子的平均词数都大于《综合教程》文本,此外,Flesh金凯德年级水平也显示四级文本更适合美国高中学生水平,所以四级文本的难度大于《综合教程》难度。由于阅读是一个非常复杂的认知加工的工程,而Coh-Metrix工具的数据分析中包含106个特征,本文只选用了其中的5个变量进行分析,因而分析结果并不代表普遍性。为了保证分析的效度,在今后的研究中还需要结合其他的统计软件进行更加深入细致的研究。

参考文献:

江进林.基于Coh-Metrix的大学英语六级与托福、雅思阅读语篇难度研究[J].中国外语,2018(5): 86-95

贾贻东.Coh-Metrix2.0在外语教学与研究中的应用--以英语阅读任务效验为例[J].教育测量与评价,2013(4):4-11

作者简介:林静(1975.5-)江苏无锡人,硕士,副教授,研究方向是英语语言文学。

保留项目:本研究是2021年江苏省大学生创新创业训练计划项目,项目编号:202112106016Y。项目主持人:邵祖,盛昀涛;指导教师:林静,杨永凤。

*本文暂不支持打印功能

monitor