形成性评估的证据收集与解释反馈

doi:10.12677/AE.2024.142176

期刊菜单

形成性评估的证据收集与解释反馈
Evidence Collection and Interpretive Feedback on Formative Assessment

DOI: 10.12677/AE.2024.142176, PDF, HTML, XML, 科研立项经费支持
作者: 姚梅, 胡小青：新疆大学外国语学院，新疆乌鲁木齐
关键词: 形成性评估；学习证据；解释反馈；Formative Assessment； Learning Evidence； Interpretive Feedback

摘要: 在形成性评估中，评估证据的收集和精准的反馈解释是形成性评估不同于其他评估方式的特别之处；尽可能通过不同来源收集评估证据，教师凭借丰富专业的评估知识和有效的评估经验对得到的评估证据进行反馈和解释，是达到理想的促学结果的充分条件；保证评估信息客观真实，解释反馈明确合理，才能对自身语言能力产出全方位的判断；本文梳理了形成性评估学习证据收集和解释反馈环节，从反馈渠道和专业评估角度出发，旨在提升教师就评估领域的学科教学知识。

Abstract: In formative assessment, the collection of learning evidence and the provision of target and precise feedback explanations are distinguishing features that set it apart from other assessment methods. It is crucial for teachers, equipped with extensive expertise in assessment and effective evaluation experience, to gather assessment evidence from various sources and offer feedback and explanations. This serves as a necessary condition for achieving desirable learning outcomes. Ensuring the objectivity and authenticity of assessment information and providing clear and reasonable feedback explanations are essential for making comprehensive judgments about one’s language proficiency. This paper outlines the process of collecting learning evidence and providing feedback explanations in formative assessment, aiming to enhance teachers’ subject-specific pedagogical knowledge in the field of assessment.

文章引用：姚梅, 胡小青. 形成性评估的证据收集与解释反馈[J]. 教育进展, 2024, 14(2): 1154-1160. https://doi.org/10.12677/AE.2024.142176

1. 引言

形成性评估是教育评价的一种，是教学的一个不可分割的组成部分。教育部2004年颁布实施《大学英语课程的教学要求》，促进大学英语形成性评价的实施，大学英语成性评价的研究在新课程改革的背景下涌现。《大学英语课程的教学要求》¹(2007)是我国形成性评估发展的又一个里程碑，明确阐释了形成性评价的内涵、形式与功能，强调它是传统总结性评估的必要补充。2020年10月中共中央、国务院颁布了《深化新时代教育评价改革总体方案》²，以下简称《方案》强调“改进结果评价，强化过程评价，探索增值评价，健全综合评价”；进一步对形成性评估提高了要求，强调了评估的过程性和形成性，提高了形成性评估实现课程育人和成功教学实践的质量；形成性评估要求教师、学生和同伴收集、解释和使用学习情况，进而为教师改善教学决策提供支撑 [1] ；从其定义来看收集、解释和使用学习情况是教师改进教学方法、决策的先决条件，决定了后续教学行动的基本方向。

然而，虽然形成性评估的发展迅猛，但在评价实践中我国依旧存在对形成性评估概念理解偏差、实施步骤缺失状况；误把形成性评估操作方法和手段当成形成性评估，或将某个部分或者目的等同于形成性评估的误区 [2] ；或者直接认为形成性评估就是平时成绩或是终结性评估的累积。这些都源于对其概念本质理解不清，操作步骤实现混乱引起的；确定评估的目标和标准之后，有效收集信息，解释信息是形成性评估实施的核心步骤；是决定整个评估成功与否的环节关键环节，以指导下一步学习为宗旨持续地、综合地使用各种评估手段获取信息、了解学生、反馈信息，给学生提供足够的机会，展示他们理解、解释、分析、评价问题的能力，以评促学；这是形成性评估的根本特征和最终目的。现实课堂中，虽然形成性评估实施方法多样，学生数据丰富，教师往往却很难利用这些说明学生学习情况的数据解读指导教学，遑论做出改善教学的决策；究其原因，这可能与教学时长有限，教师本身的学科教学评价能力不足，教师承受的教学科研压力和传统学习观的影响有关 [3] 。教师需要有效的解读评价信息以明确后续的教学步骤，灵活的调整教学决策，而不是一味的教后评价。

2. 评估任务与证据收集

课堂形成性评估是指自然状态下运用评估的目的和用途调整教学。目的和用途的实现，仰赖一定的评估任务。除此之外，教师通过评估任务获取教学反馈信息，改进教学管理，在采取后续行动调整教学时继续通过评估任务缩小学生现有水平和目标水平的差距；学生通过评估任务及时找出短板，调整学习策略、改进方法、提高学习效率；评估任务本身是中性的，只有评价者在使用其数据时才决定它的形成性或终结性潜能 [4] 。形成性评估是为调整教和教学提供持续的反馈信息；而终结性评估是对学习成果进行认证以完成打分，评级等目的；评估者评估任务使用得当，数据解读正确，教师可以既可以实现评估的形成性功能也可以实现评估的终结性功能。

2.1. 评估形式和任务类型

形成性评估分为正式和非正式评估两种形式，前者旨在为学生的学习而评价，以评价任务为核心，评价任务一般由教师课前设计好嵌套进课程按步骤实施，通过课堂评估任务和练习题或课后作业任务等形式检测、收集学生数据，帮助学生完成学习目标；多为计划型。而非正式形成性评估是一种即时的，非正式的课堂评价实践，在实际的教学活动中，根据学生课堂表现、学习效果、反应和与教师的对话讨论，提供即时反馈，回应反思教学效果，通过非正式互动获取的信息 [5] ，依据教学的切实需求动态提出可能有效调整。在实际实施过程中，即时评价与面对学生复杂的观点对教师来说极具挑战性；教师善于使用话语策略引出学生的观点，却很难进行有效的解读和回应，更难于高效利用学生即时观点，基于观点进行的教学决策调整更是少之又少。课堂中出现的评价数据仅用于浅层的解读或者直接主观忽略；由此可见，相比于正式形成性评估，非正式评估更考验教师能力。

评估任务针对计划性评估即我们所说的正式形成性评估在《课堂形成性评估方法》一书中有提出，依照评估的任务和持续时间，Gu提出评估有短、中、长循环三种评估循环 [6] ；短循环发生在课前、课中和课后；一节课内完成整个评估的循环；评估主体多为教师，学生和同辈；评估任务类型一般是课程中指定的语言学习任务；在与评分相关的教学情景中，多使用任务量规或核对清单表，主要用于评估学生对主体知识的回忆和理解，检查评估内容是否与课程教学相一致，从而保证评估内容相关性和代表性；中循环的评估时间通常为数周或者数月，教师以教学内容为导向通过单元测验、期中测验课后作业等评估任务获得结果进而解读的学生的学习效果，运用终结性评估的形成性功能促进教学。长循环通过常规学期考试，入学考试等，用途多为终结性，但也可形成性使用。

2.2. 评价量规的使用和编制

量规是针对学生学习制定，由教师或评价者开发，包含一组清晰连贯的标准，以及这组标准下各层级的表现质量描述 [7] ；标准为教师和学生提供了关于学习目标的指标，帮助他们明晰是否学习是成功的。在评分较为主观的情况或者任务比较复杂时，可用来评估能力成就程度、分析学生学习结果，监督学习过程等，通常为表格形式；Mertler将评估量表分成两个维度：评分标准和实际能力水平，评分标准详细描述了每条标准从优到差的质量等级 [8] ；评估标准的数量可从单一标准(即整体性评分标准)到多个标准(即分析性评分标准)不等；具体有整体性量规、分析性量规、核对表/核查表、分值系统等。量规既是良好的学习辅助工具，也是学习评价工具。

设计良好的评分标准是评估学生成绩质量的重要因素，既可用于反馈，也可用于总结，通过评价量规，学生对照量规查找问题，对于自己薄弱的环节查缺补漏，可以促进学生更多参与和自主学习；形成性评估的目标和标准之一是检查学生学习效果，学生拿到评价量规后，对照量规与理想目标进行比较，强化薄弱环节，从而达成促进学习的目标；使用评价量规基本要求之一就是在测试开始之前与他们分享评估标准，通过这种方式促进学生深度学习，因为学生浅层学习的原因之一对预期的学习内容缺乏了解 [9] 。量规之所以重要，是因为他们阐明了任务的特定规范，通过强调任务和目标的质量构成，将学习目标转化为量规、清单和工作表，将评估与语言学习联系起来。有学者将量规评估不同类型的成果，Huba和Freed (2000)创造性的展示了量规在评判性思维过程、思维习惯和情感技能方面的实用性 [10] 。为了确保信度，教师应该在确定评估目标及其成功标准方面与学生达成共识，收集使用学生各种表现的范例，熟练编制和使用评分标准。

2.3. 测验的规范与伦理

伦理评估实践在避免对学生的潜在伤害和提高学生学习方面发挥着重要作用 [11] ，不道德的评估实践可能导致教师对学生学习产生的错误判断 [12] 。因此在实施时既要考虑技术规范还要遵循一定的伦理规范。美国教育研究会和美国教育测量委员会共同制定了《关于心理测验和诊断技术的技术建议》，提出测验的伦理规范和测验的技术规范，为测验工具和测验的实施过程设定了初步的质量标准；考虑了学习数据收集的技术规范，保证测量过程中的信度和效度问题；而评估的伦理规范包括在评估开始前，教师和学生需知情自愿参与研究并有权利随时退出，了解数据收集的相关要求，评估的过程中，需要考虑学生是否愿意参与评估，是否有能力进行自我评估以及教师的学科知识能力尤其是评估能力，对每个学生的评估结果是否一致；尊重学生的情感需求等；最后为保护被研究者个人隐私，参与本研究的所有教师、学生都需匿名处理。

形成性评估以人本主义为中心，倾听学生需求，关注学生的非智力因素尤其是情感因素；因此在评估实施过程中需要考虑给评估主体带来情感影响的因素；Lynch和Shaw (2005)提出的效度理论验证框架提出了公平性、本体论真实性、教育真实性等五条原则 [13] ；在尝试解决效度验证问题的同时也明细了评估的伦理范畴：保证评估环境公平、评估程序正当、评估结果解释公平合理，相关人员获得评估信息的真实性等；保证客观公平的环境影响学生产生交流互动的意愿，评估信息的真实客观保证了教师对学生学情的充分了解，影响后续形成性评估的调整和开展。

2.4. 评估方式和工具

获取学习数据是进行评估的重要前提，教师凭借学习数据解读学生是否达到课堂目标；进而辅助教学决策；我们通常利用已有的工具或者根据个性化需要设计测评工具；林敦来(2019)在《中小学英语教师语言评价素养参考框架》一书中提出了针对课堂评价的工具 [14] ，顾永琦将其分为计划型和即时型两种；计划型包括常见的教材中出现的练习、区县统一的教辅材料、平时表现记录、量表等；即时型包含口头问答、课堂观察、学生自我评价、学生同伴评价等 [6] ；根据真实的课堂情况及不同学段，具体的使用略有不同；有的教师以大规模标准化考试，口头问答、课堂测验、课后作业为主，有的教师以观察课堂表现和测验为主；Krashen (1985)提出可理解输入有助语言习得，而获得与语言习得相符合的语言输入的外语学习者更容易获得成功 [15] [16] ；对形成性评估来说，学生自评，同伴互评等教师评价等都是其实现以评促学的不同方式，接收来自不同主体和使用不同工具的反馈会使评价反馈更加多元，评估面更广，更能发挥评估的形成性功能。

3. 解释与反馈

3.1. 评估实践步骤

形成性评估证据收集–证据解释–评价反馈–后续行动为评估的完整闭环 [17] 。评估实践的开始首先要求教师就教学目标和成功标准提前与学生达成一致，而学习信息的证据收集是解释证据、提供反馈的前提，只有有效的获取教学信息，对其进行正确的解释反馈，才能采取对症的后续行动，形成性评估的证据收集与解释反馈尤其是非正式形成性评估对教师学科教学能力要求极高，涉及决定使用何种评估工具(计划或即时)以及如何使用以判断学生现有学习水平；依据学习证据对结果进行下一步解释为教学决策提供支持；向学生提供反馈，进而提出缩小学生现有水平与理想目标之间差距的对策；最后为学生提供缩小差距的机会和任务；在证据收集环节，文秋芳在顾永琦提出的形成性评估的步骤上(2023)做出了更细致的要求：强调了评估需要重复不间断实施，学习证据多渠道收集、评估过程涵盖全过程；在提供反馈环节和后续行动环节，提出解析证据需要全方位、多角度 [18] ；研究者对需要基于学习证据分析做出充分解释，明确现有水平和评估目标之间的差距，从教与学两个视角分析差距产生的原因；师生作为共同主体都需要付出努力；给予的反馈要构建“认知–情感–社会”层面的有效连接；教师、促研员和学生(学员)作为不同主体都要提供自身角度的反馈，进行不同层次间的良性互动。研究者通过形成性评估实施观察诊断功能，分析产生原因并给与解释，最后给与反馈建议并做出调整。

3.2. 评估形式与解释

有关评估结果的解释，美国国家研究委员提出的评价三角架构给我们展出了推理数据的过程，如图1，三角的三个角分别代表学习认知–课堂观察–证据解释，三种因素彼此关联，相互影响；评价者根据个人认知能力，引出学习信息，识别并诊断学习中痛点难点，并通过课堂观察即教师倾听学生表达，对学生进行同步观察，观察学生的细微表情与行为举止等，进一步判断是继续推进下一阶段的学习内容还是复习巩固当前内容；评估结果的解释，是基于数据对学生的知识、能力、思政情况的概况性评价；旨在为学生提供“学业沟”的信息 [19] ，即学生当前学习状态与教学目标的之间的差距；判断学生学习现状在何种程度上达到了教学目标(知识目标/能力目标等)；对评估结果的解释需要考虑教师对每个学生的评估结果是否一致，这涉及到了教师的评估素养，教师的专业知识和评估经验是评估的解释和使用效度的重要保障；除此之外，评分员是否向每个学生提供其学习现状与教学目标差距的具体准确的信息，以及教师评分员是否向教师提供每个学生学习现状与教学目标差距的具体准确的信息也是在评估解释中需要考虑的问题。

Figure 1. Assessment triangle

图1. 评价的三角结构

根据评估形式的不同，课堂评价工具涵盖计划型和即时型两种；包括平时表现记录，口头问答、课堂观察、学生自我评价、学生同伴评价、教师课堂表现等；教师课堂中使用的操练方法可以为对话、句型操练、翻译练习等；评估任务类型为教师设计的语言教学和学习任务；学习任务包括，课堂测试角色扮演，口头问答等；测评量规以分析性量规和核查表为主，旨在了解学生在单元末是否完成了该单元的知识目标与能力目标；判断学生与理想水平的差距；以笔者执教学校为例，考核成绩平时成绩与期中期末成绩各占50%，平时成绩由雨课堂在内的平台打分和平时作业、讨论、测试等构成，除平时表现评价，学生自我评价/同伴评价外，增加了学习软件等机器评估，学生通过平时打卡获得学习数据，根据平台反馈调整学习计划；使得评估结果更加客观，准确。

随着教师的语言学习任务难度递增，中循环式计划性评估例如小组展示，限定作文等评估任务开始出现，所获取的评价信息是作品完成过程中教师提前嵌入的评估任务；教师以教学内容为导向通过单元测验、期中测验课后作业等评估工具和设计的写作量规获得结果进而解读的学生的学习效果，运用终结性评估的形成性功能促进教学；学生从选定主题、材料收集到小组展示成型，合作完成过程中需要自我反思，小组评订，教师指导等多方审核；解释与反馈穿插其中；基于每一次小组数据和多方反馈，通过写作打分量规小组表现记录、课题研究报告等评估手段和评价量规，形成性评估持续被执行。针对正式形成性评估，数据解释和反馈在的目标和标准和任务量规的规范下，保证了课堂评估的质量。但在非正式形成性评估中教师也需要在实际教学中积累评估的范例，明晰潜在标准，避免评估的主观性和随意性。

3.3. 反馈与学习者

学生在学习过程中接受的所有评价信息即为反馈 [20] ；针对课堂话语反馈，不同的学者根据不同维度对反馈的类型进行了分类 [21] [22] 。形成性反馈中不同的反馈类型有着不同的功能和作用。Tunstall, P.和Gipps, C.研究了小学低年级教师所开展的形成性评价中的教师反馈要素，将反馈评价归类为包括奖励与惩罚、否定与赞同的评价性反馈和描述成就与改进、构建成就及前进路径描述性反馈；不同形式的反馈对应课堂管理、表现取向、掌握取向和学习取向的功能目的 [21] 。Stobart提出学习环境和反馈是影响形成性评估效度的两大因素 [23] ；课堂本身环境和课堂外的社会环境都是评估环境；信任和尊重的课堂环境影响师生间积极互动的数量和质量，融洽安全的课堂氛围也有利于学生更好的观察和获取学习信息，接受反馈信息。

反馈根据不同主体，可分为教师反馈、自我反馈和同伴反馈等；反馈通常伴随着纠正(错)。纠正性反馈被定义为“传达给学习者的信息，旨在修改他的思维或行为以改善学习” [22] ，或“对学习者生产或理解第二语言的适当性或正确性的评论” [24] 。在课堂非正式互动中，学者们也根据不同维度对口头纠错性反馈对其进行分类 [25] [26] ，针对简单错误类型，教师邀请同伴为其纠错；或者通过诱导引出(elicitation)等方式尝试使学生自我纠错，教师提供反馈；教师合理利用不同主体纠错反馈，照顾了学生的面子需求，也改善教学决策提供支撑，同时满足了反馈的多渠道。形成性评估以学生为主体，倾听学生需求，关注学生的情感状态；教师应重视纠错方式，避免学习者产生焦虑情绪，影响学生学习动机，尽可能的做到因人而异，及时调整反馈类型和纠错方式；学生对不同的纠错方式和反馈类型有自己的情感偏好，例如大学课堂中重复法、请求澄清法和明确纠正法会引起学生焦虑 [27] ；积极反馈除了让学习者知道自己正确地回答了问题以外，还会增强学习者的信心和学习动机 [28] 。教师反馈在反馈类型的基础上增加评价语言的多样性和情感投入会更能引起学生的情感共鸣。照顾学生情感需求的反馈也会使得学生更容易接受反馈，使反馈的质量更高。

4. 结语

形成性评估本质上是基于学生的表现做出的推断或推测，因而数据的判断解释受很多因素的影响；教师使用、解释学生信息给予反馈进而推进教学实践要求教师具备完备的学科教学知识，要有主动开展并反思评价实践的意识；教师的认知发展促进学生的认知发展，教师对课程标准的理解、语言能力的构念、根据专业判断设计的语言使用任务、对形成性评估的理解和把握影响其具体评估实践。以目标和标准为准线，根据不同的课堂功能及需求调整反馈形式，明确进步方向。

基金项目

本文为2022年自治区社科基金专项项目《新时代新疆青少年铸牢中华民族共同体意识教育创新研究》阶段性成果，编号2XJJA710002。

NOTES

¹教育部办公厅关于印发《大学英语课程教学要求》的通知——中华人民共和国教育部政府门户网站 (http://www.moe.gov.cn/srcsite/A08/s7056/200401/t20040130_110837.html)

²中共中央国务院印发《深化新时代教育评价改革总体方案》——中华人民共和国教育部政府门户网站 (http://www.qstheory.cn/yaowen/2020-10/13/c_1126601844.htm)

参考文献

[1]	Black, P. and Wiliam, D. (2009) Developing the Theory of Formative Assessment. Educational Assessment, Evaluation and Accountability, 21, 5-31. [Google Scholar] [CrossRef]
[2]	顾永琦, 李加义. 形成性评估的效度[J]. 外语教育研究前沿, 2020, 3(3): 34-41.
[3]	Buck, G.A. and Trauth-Nare, A.E. (2009) Preparing Teachers to Make the Formative Assessment Process Integral to Science Teaching and Learning. Journal of Science Teacher Educa-tion, 20, 475-494. [Google Scholar] [CrossRef]
[4]	Rea-Dickins, P. (2007) Classroom-Based-Assessment: Possibili-ties & Pitfalls. In: International Handbook of English Language Teaching, Springer US, Boston, 505-520. [Google Scholar] [CrossRef]
[5]	董泽华. 非正式形成性评价研究[D]: [博士学位论文]. 上海: 华东师范大学, 2021.
[6]	顾永琦. 课堂形成性评估的方法[M]. 北京: 外语教学与研究出版社, 2021.
[7]	Brookhart, S.M. (2013) How to Create and Use Rubrics for Formative Assessment and Grading. ASCD, Alexandria.
[8]	Mertler, C.A. (2001) Designing Scoring Rubrics for Your Classroom. Practical Assessment, Research, and Evaluation, 7, Article No. 25.
[9]	Biggs, J. (2003) Aligning Teaching and Assessing to Course Objectives. Teaching and Learning in Higher Education: New Trends and Innovations, 2, 13-17.
[10]	Huba, M.E. and Freed, J.E. (2000) Learner-Centered Assessment on College Campuses: Shifting the Focus from Teaching to Learning. Allyn & Ba-con, Needham Heights.
[11]	Schulman-Green, D., Cherlin, E.J., McCorkle, R., et al. (2010) Benefits and Challenges in Use of a Standardized Symptom Assessment Instrument in Hospice. Journal of Palliative Medicine, 13, 155-159. [Google Scholar] [CrossRef] [PubMed]
[12]	Schmeiser, C.B. (1995) Ethics in Assessment. ERIC Clearinghouse, Greensboro.
[13]	Lynch, B. and Shaw, P. (2005) Portfolios, Power, and Ethics. TESOL Quarterly, 39, 263-297. [Google Scholar] [CrossRef]
[14]	林敦来. 中小学英语教师语言评价素养参考框架[M]. 北京: 外语教学与研究出版社, 2019.
[15]	Krashen, S. (1992) The Input Hypothesis: An Update. In: Linguistics and Language Peda-gogy: The State of the Art, Georgetown University Press, Washington DC, 409-431.
[16]	Wagner-Gough, J. and Hatch, E. (1975) The Importance of Input Data in Second Language Acquisition Studies. Language Learning, 25, 297-308. [Google Scholar] [CrossRef]
[17]	李加义, 顾永琦. 英语形成性评估的目标和标准[J]. 外语与翻译, 2021, 28(1): 54-58.
[18]	文秋芳, 毕争. 云共同体教师学习形成性评估框架与应用[J]. 外语界, 2023(2): 8-15.
[19]	Way, W.R. and Nichols, D.P. (2010) Psychometric Challenges and Opportunities in Implementing Formative Assessment. In: Andrade, H. and Cizek, G.J., Eds., Handbook of Formative Assessment, Routledge, New York, 297-315.
[20]	Eills, R. (1999) The Study of Second Language Learning and Teaching. Shanghai Foreign Lan-guage Education Press, Shanghai.
[21]	Tunstall, P. and Gsipps, C. (1996) Teacher Feedback to Young Children in Formative Assessment: A Typology. British Educational Research Journal, 22, 389-404. [Google Scholar] [CrossRef]
[22]	Shute, V.J. (2008) Focus on Formative Feedback. Review of Ed-ucational Research, 78, 153-189. [Google Scholar] [CrossRef]
[23]	Stobart, G. (2008) Testing Times: The Uses and Abuses of As-sessment. Routledge, London. [Google Scholar] [CrossRef]
[24]	Li, S. and Vuono, A. (2019) Twenty-Five Years of Research on Oral and Written Corrective Feedback in System. System, 84, 93-109. [Google Scholar] [CrossRef]
[25]	Lyster, R. and Ranta, L. (1997) Corrective Feedback and Learner Uptake: Negotiation of Form in Communicative Classrooms. Studies in Second Language Acquisition, 19, 37-66. [Google Scholar] [CrossRef]
[26]	Sheen, Y. Ellis, R. (2011) Corrective Feedback in Language Teaching. In: Handbook of Research in Second Language Teaching and Learning, Routledge, London, 593-610.
[27]	石乐. 大学英语课堂纠错方式对不同水平学生的影响及对策研究[D]: [硕士学位论文]. 西安: 西安外国语大学, 2014.
[28]	Nunan, D. (1991) Methods in Second Language Classroom-Oriented Research: A Critical Review. Studies in Second Language Acquisition, 13, 249-274. [Google Scholar] [CrossRef]

为你推荐

友情链接