1. 引言
Lado于1961年出版的《语言测试》一书,标志着国外语言测试的开始,距今已有近60年历史。相比较于国外已经成熟的语言测试研究来说,国内的语言测试发展起步较晚,与国外相比仍有很大的差距,尤其从对外汉语学界来看,相比国内其它语言测试的研究,如托福考试、日本语能力测试考试等,汉语测试的研究发展尚未完全成熟。汉语测试作为一种媒介,可以帮助教师和留学生了解自己在测试中存在的问题,更好的推动汉语教学的发展。本文通过对《世界汉语教学》和《语言教学与研究》两本对外汉语核心期刊中近十五年的语言测试文献进行分析,更好地了解国内汉语测试的发展动态。
2. 研究文献与研究方法
《世界汉语教学》创刊于1987年,是对外汉语教学专业的中央级学术刊物、“语言学/汉语”类核心期刊,主要方向有汉语研究、汉语教学研究、汉语学习研究、各地教学研究、学术评论,出版周期为季刊,每年发行四期。其办刊宗旨是:及时反映世界范围内汉语教学领域的最新理论研究成果,交流世界各地的汉语教学实践经验,提供新的信息,促进汉语教学的理论研究,推动教学实践的开展。
《语言教学与研究》创刊于1979年,是由北京语言大学主办的以对外汉语教学为特色的专业性学术期刊,以发表汉语作为第二语言的教学与习得研究、汉语本体研究和语言应用研究等相关稿件为主。出版周期为双月刊,设对外汉语教学、汉语研究、语言与文化研究、语言对比、语言习得和语言测试等栏目。
所选两本期刊都是对外汉语学界核心期刊,具有一定的代表性。本文运用文献分析法对两本核心期刊上发表的文章进行分析,能够从侧面了解到国内汉语测试的发展状况,有一定的说服力。
3. 研究结果
3.1. 文献时间分布
通过对2003年~2017年共十五年的文献统计分析可知,《世界汉语教学》中与语言测试有关的文献研究共26篇,《语言教学与研究》中相关文献共22篇,合计共48篇,详情见表1。
从数量上分析,近十五年来两本期刊中关于汉语测试的研究文献的发表数量虽然大致稳定,但仍有逐渐减少的趋势。两本期刊同样于2003年、2004年发表的文献数量较多,至2005年降至1篇,《世界汉语教学》2006年没有语言测试相关文献,至2007年则出现研究高峰,《语言教学与研究》没有2006的断流,并且在2006年出现研究高峰。本文认为出现这一情况的原因可能与新汉语水平考试HSK的研制、推广和改进有关。汉语水平考试HSK于1984年开始研制,至1997年才正式通过了国家汉语水平考试委员会组织的专家鉴定,成为一个较为完整的系统。HSK考试经过改革分为旧HSK和新HSK,新HSK于2009年正式推出,2006、2007年正处于新旧HSK改革交替阶段,相关学者对于语言测试的关注也有所增强。
![](Images/Table_Tmp.jpg)
Table 1. Statistical table of literature on language tests from 2003 to 2017 in world Chinese teaching and language teaching and research
表1. 《世界汉语教学》与《语言教学与研究》2003~2017语言测试类文献统计表
3.2. 研究视角
3.2.1. 宏观视角
1) 国内汉语测试研究
因为汉语水平考试(HSK)是中国教育部设立、全球范围内影响最大的汉语测试,因此在宏观视角的分类中将HSK相关研究归为一类,非HSK相关研究归为一类。
a) HSK相关研究
根据研究分析,HSK测试的等级划分、题型设计、分数解释等方面的研究更为成熟具体,这也跟HSK从开始研制至今已经近30年的时间有关。其相关研究也多集中于2007年以前,之后的研究重点转向具体项目,王小玲(2005)以北语一年级和二年级学生为HSK常模参照,探究HSK预测样本变化对题目难易度的影响,从而获得一份可以统一到同一尺度下的拼正式卷 [1] 。杨翼(2006)则对HSK(高等)题库参数体系的核心进行提炼,阐明核心参数的数量与层次,并构拟了题库的参数体系结构 [2] 。
与此同时,随着国外语言测试相关理论的发展与传入,研究者开始关注汉语测试的信度、效度以及测试原则等,柴省三(2003)通过实验设计,从评分一致性和准确性两个角度对影响汉语水平口试信度的基本维度进行研究 [3] ;王小玲(2006)通过实证研究,证明HSK作为一般性的语言能力测试具有比较可靠的效标关联效度 [4] ;许希阳(2008)强调对外汉语口试成绩测试应强调真实性、互动性原则 [5] ;柴省三(2012)首次运用聚类分析法对HSK(初、中等)阅读理解测试的构想无关变异做出探讨 [6] 。
虽然对HSK的研究呈现逐步深入细致的趋势,但是从获得的文献资料来看,对HSK研究还存在对具体项目的研究数量较少,相关研究多集中在讨论HSK题型设置、效度、信度等方向,研究范围狭小等不足。
b) 非HSK相关研究
非HSK相关研究主要集中于语言测试和其他汉语测试的相关内容。周胜(2006)就测试设计、语料选择、测试评分等方面介绍了语言测试的真实性,以整体带局部的方式促进汉语测试的研究不断深入 [7] 。
刘壮,陈宏(2003)从考试性质、考试目标、考试分析三个方面对继新汉语水平考试HSK之后研制的对外汉语职业考试——实用中文文书测试做了介绍,主张设立职业类汉语水平考试 [8] 。方绪军(2009)也提出,为了适应人们对专门用途汉语的使用的需要,必须有相应地专项汉语测试的研发 [9] 。但是相关研究也止步于提倡研发,后期并没有出现其他就专项汉语测试为主的研究。
另一方面,任春艳(2007)提出简化分班测试的实验研究 [10] 、陈天序(2010)提出基于学期测试的来华留学生个体差异研究 [11] 、郭修敏(2017) [12] 则着眼于汉语作为第二语言的分级测试的研究。根据以上研究我们可以看出,汉语测试的研究逐渐从整体引向局部,从测试的种类入手进行细致分析研究,研究主体以学生为主,主要着眼于对对外汉语教学的影响。另一方面,现在所做的研究仍留有问题需要解决,如无论是分班还是分级测试,都会涉及到国别不同,学生学习能力不同的问题。亚洲文化圈的学生学习汉语的能力明显优于欧美文化圈的学生,考虑到整个汉语教学的设置,同样级别的学生划分到一个班级,很有可能形成欧美班、日韩班的区别,对学生学习动机、学习积极性也存在一定影响,如何更好地解决这一问题,还有待研究。
2) 国外汉语测试研究
宋燕(2004) [13] 、陆庆和(2003) [14] 和古川裕(2007) [15] 分别介绍了日本的“中国语检定”和日本“汉语交际能力考试”的相关情况,钟国荣(2010)以新加坡汉语阅读理解教学为基础,从阅读理解的四个层次,探讨汉语作为第二语言的阅读理解测试模式 [16] 。姚道中(2007) [17] 、赵炜、张丽、姚力虹(2013) [18] 则介绍了美国汉语测试的发展以及美国K-12中文教学中评测的相关情况。但是我们可以看到,以国别来分析的文献数量太少,而且国别种类单一,研究不够丰富。同时在进行研究分析时,每一个国家都存在不止一个汉语测试类型,这就导致衡量学生汉语水平能力的标准无法统一,在具体研究中,研究者所采用的定量就难以统一。基于此,方绪军(2007) [19] 、方绪军、杨惠中、朱正才(2011) [20] 通过对《欧洲语言能力等级共同量表》(CEFR)的介绍和分析,根据不同的汉语水平测试研发在等级设定和分数解释方面存在等级标准基于经验描述趋于模糊、测试种类增多但缺乏共同参照标准等问题,提出制定共同汉语能力等级量表的必要性。但相关研究还未有后续,具体的制定标准和等级设定仍待讨论与研究。
3.2.2. 微观视角
1) 口语相关的研究
根据文献分析,口语相关研究主要分为三个角度:测试本身、测试员以及被测者。测试本身的研究主要包括测试设计、测试信度与评分标准三个方面。在实际研究中,各个研究角度都是相互融合交叉的。测试设计中题型设置则是研究者主要研究内容,
李海燕、蔡云凌、刘颂浩(2003)在以往口语分班测试研究基础上,对包括自我介绍、对话、话题表达、看图说话、朗读以及听读六种题型进行了研究 [21] 。聂丹(2012)则基于汉语作为第二语言的C.TEST口试测试,初步探索了测试任务的体裁类型及难度评估 [22] 。但是基于C.TEST口试任务题材类型有限,研究样本数量较少,其研究可靠性有待证明,同时只对C.TEST一种汉语测试口试进行研究,从测试种类来看无法代表全部汉语测试,如果能加入其他汉语测试口试的对比,其研究结果会更科学全面。
而从测试员的角度进行研究的文献来看,由于对外汉语口语课的成绩测试多由任课教师设计并且评分,“考试的随意性、标准的不确定性和对标准认识的模糊性现象更为严重”(翟艳2012) [23] ,基于此,郭修敏(2016)着眼于构建和应用对外汉语教学口试评分员培训体系,以填补相关研究的空白 [24] 。但是由于口语测试本身属于主观性测试,评分员不可避免地要受主观情感影响,容易出现评分误差。柴省三(2003)也指出,评分员心理图式的迁移作用对评分信度也有重要影响,评分误差的控制对口试信度影响最大 [3] 。
从被测者的角度来看,赵琪凤(2016)以北京大学59名来华留学生为例,对预科生的口语水平进行了调查和研究,通过总结发现,同一口语水平的考生对口语表达不同方面的掌握也不同 [25] 。韩笑、冯丽萍(2017)则以六名母语为英语的留学生为例,考察了其口语表达基准型指标的表现与发展 [26] 。许希阳(2008)也在研究中从学生需求角度反思对外汉语口语成绩测试,指出口语测试应侧重考察语言使用的综合能力,而不是零星的语音、词汇、语法知识 [5] 。除此之外,从现有研究发现,不同题型对不同背景的学生也有影响。亚洲文化圈的学生明显优于欧美文化圈的学生,在今后的题型设置上也需要多加注意。
2) 阅读相关的研究
阅读相关研究主要集中在题型设计、语料选择以及测试效度三方面。其中在语料选择方面,普遍存在的问题是理论性太强,实际操作范围太广,难以准确定位选择。如黄理兵、郭树军(2008)以HSK初、中等级为例,探讨阅读理解题型在语料选择中要遵循选择题材广泛、题材多样、语料真实、无敏感内容、新信息时效性不要太强、避免偏僻内容等的原则 [27] 。但是实际搜索语料时难度太大,因此在对外汉语界容易形成自编语料的现象,但自编语料虽然在生词和语法的选择上更贴近学习进度,教师举例更方便,也存在交际性不强,所编语料不贴近生活,实用性不强等问题。研究中提出的试题编写要考察点明确、题目内容和形式要有变化、提问角度多样化等要求,缺乏更细致的研究定义,如果有对外汉语教师在实际教学中能做出相应尝试,并且对其教学尝试进行研究,分析所设计的考察点、题目内容和形式以及提问角度的变换在实际教学中的实用性,将更有利于对外汉语阅读测试的发展。
3) 练习相关的研究
练习作为检验学习者学习成果的重要一环,可以帮助教师了解并掌握学生学习进度,更好把握教学进度和设计教学环节。而汉语学习者期盼学习效率提高、学习时间缩短、熟练运用汉语能力增强,这些都需要依靠练习来完成。经过研究发现,练习相关研究主要集中在汉语教学活动中,包括汉语教材附带的课后练习以及教师设计的课堂或课后练习上。周健(2004)通过对50种汉语教材练习的考察,分析了现行教材练习设计的得失,指出占关键地位的练习设计实际上应该是新的教学理念和教学法的体现 [28] 。方绪军、李翠(2015)主张在汉语教学活动中重视区分试题与习题,使测试更好地发挥测量语言能力的工具作用,使汉语教学和技能训练更专注于培养和提高学生的汉语能力 [29] 。陈楠、杨峥琳(2015)则通过对美国、日本和韩国三个国家所编写的使用较为广泛的汉语教材的练习部分进行研究分析,得出三国汉语教材中练习的侧重点 [30] 。一般来说国内练习设计大多存在重演绎、重复、翻译等认知策略,练习形式单一固定以及缺乏交际性策略、难以吸引学生兴趣等问题,从这一角度来看,练习设计仍任重而道远。
4) 教学相关的研究
语言测试与语言教学密切相关,研究语言测试不仅有利于对测试形式和测试内容的完善研究,对教学方法也有一定的指导意义。柯传仁、陆原、潘小斐(2015)通过阐述第二语言习得理论与语言教学之间的关系,力图建立一套评估国际汉语教师教学技能及二语习得理论知识的模式,同时讨论该评估理论的基础、考题制定标准以及测试的效度和信度等 [31] 。但是该模式存在理论性强,细节设计不完善,难以实际实施等不足之处,仍需要继续深入研究。
3.3. 研究内容
根据上文微观视角的研究分析可以得出,两本期刊中的汉语测试研究内容集中于阅读理解、口语、教材的练习习题以及教师技能四个方面,其中口语测试的研究最多,具体见表2,而这主要与汉语教学的目的有关。一般来说,衡量一个人的语言水平的高低通常从听、说、读、写四个方面进行分析,而对外汉语教学的最终目的是让母语为非汉语的学习者掌握并熟练应用汉语,其中流利的口语水平是衡量汉语能力的重要标准,基于此,口语测试的研究远远多于其他技能的研究。
![](Images/Table_Tmp.jpg)
Table 2. Statistics of listening, speaking, reading, writing and teaching skill items in Chinese tests of world Chinese teaching and language teaching and research
表2. 《世界汉语教学》与《语言教学与研究》的汉语测试中听、说、读、写、教学技能项目统计表
与此相对的是听力测试以及写作测试的研究方面的空白。尤其是听力测试,与口语、阅读等其他技能不同,听力是从初学开始就始终贯穿整个学习过程的基本技能,听力测试可以有效判断汉语学习者对发音、声调以及生词和语法的掌握情况,避免了亚洲学生熟悉汉字字形而形成的成绩虚高。同时写作测试相比口语测试,在重点考察了汉语学习者是否正确掌握学过的语法,是否具有将所学知识应用在正确的语境中的能力的同时,还提出了学习者是否掌握所学汉字字形的更高要求,这也是提高汉语学习者汉语水平的重要测试。因此本文建议相关学者可以把研究方向向听力和写作测试的研究靠拢,弥补这一方向的空白。
3.4. 研究对象
本文虽然是以汉语测试为研究对象,但是本人认为语言测试的发展从来不是一家之言,汉语测试的发展历史尚短,与国外语言测试的发展有巨大的差距,仍有巨大的进步空间。虽然在上述分析中,有国内汉语测试与国外汉语测试的对比分析研究,但是只分析汉语测试本身仍然有很大的盲点。赵金铭(2007)曾就英国剑桥大学ESOL考试中心“剑桥英语教学能力证书(Teaching Knowledge Test,简称TKT)在中国的推出,指出我国外语教学能力认定尚未完善健全 [32] 。但也只是一笔带过,并没有深入对比研究分析。因此本文认为在汉语测试的研究中,可以加入不同国别测试的对比,通过对比分析深入了解汉语测试本身的优势和不足,借鉴其它语言测试中的优点,弥补汉语测试的不足。
3.5. 栏目设置
在对《世界汉语教学》和《语言教学与研究》中的汉语测试相关论文进行搜集、分类的过程中,关于期刊本身,还发现其在栏目设置上存在栏目名称不固定、栏目名称与实际内容不相符的问题。《语言教学与研究》中并没有明确的栏目分类,在文献检索时难以准确定位相关信息,给文献搜索带来不便。而《世界汉语教学》中语言测试的内容除了出现在“汉语测试研究”栏目之外,还分别出现在“汉语学习研究”、“汉语习得研究”、“汉语教学研究”、“汉语学习与测试研究”、“汉语教学与测试研究”等栏目名称中,与语言测试一起出现在栏目中的有时并不是语言测试的相关内容,栏目名称的模糊性不仅对文献的搜索有一定的影响,也从侧面说明目前国内关于汉语测试的研究尚未完善,汉语测试在国内的研究尚且较少,因此如何更合理的安排其栏目设置,仍有讨论的空间。
4. 结语
通过对《世界汉语教学》和《语言教学与研究》中汉语测试相关文献的分析,从文献的时间分布、研究视角、研究内容、研究对象以及栏目设置上,我们可以看到,随着应用语言学的逐渐发展,以及国外语言测试的逐步传入,国内汉语测试的相关研究也逐步丰富起来,以后的发展相比目前的研究也会出现一些新的研究方向,研究视角会更加多变,研究焦点也从单纯的测试介绍到基于测试项目的分析,近年来更呈现出各个理论相互结合进行研究分析的趋势,这些现象都说明我国的汉语测试体系虽然仍有不足,但正朝着更加完善的方向走去。