为什么标准化考试成绩不能衡量教育质量

编者按：本文探讨美国标准考试与教育质量之间的相关性，他山之石可以攻玉，编发此文希望对我国基础教育质量的评价研究有所启发。

唐劲松编译

教育工作者正承受着近乎无情的压力，这些压力主要是如何证明其工作的有效性。不幸的是，大多数社会人士判断一所学校成功与否的主要指标就是标准化测验。如果一个学校的标准化考试分数很高，人们就会认为该学校的工作是出色的、有效的。反之亦然。如果这种教育质量是由错误的标准来衡量的，那么所有评价就会是错误的。学生的标准化考试成绩是评价一所学校的最重要的因素，看似很简单，但大多数教育工作者并不明白为什么一个标准化的测试会导致人们对学校教职员工工作效能的错误估计。

测试有两大类，标准化考试测验和成就测验。标准化考试测验预测学生在一些后续的教育环境中将如何表现。最常见的例子是SAT和ACT，这两个测验都是想知道学生将来的成就如何。但是，标准化考试的成绩就是市民和学校董事会成员评估学校效能的依据。在全国范围内，五个标准化测试包括：加利福尼亚成就测验、基本技能综合测试、爱荷华基本技能测试、大都会成就测验和斯坦福成就测验。

标准化测试的评估团

那些创造了标准化考试形式的人是非常有才华的人。他们正在尝试做的是创造一种评估工具，允许某人做一个有效的推理的知识或技能，一个给定学生特定内容的区域，更确切地说，这个推理是参照了国家的学生样本（相同年龄或者年级水平），他们的相关知识和技能。

评估孩子在特定领域的知识或者技能的掌握情况，可以给家长和教育者提供参考的信息。例如，父母发现孩子在四年级语言艺术（94分）、数学（89）方面表现很好，而在科学（39分）和社会研究（26分）方面表现得差强人意，这说明了一个孩子的长处和弱点，不仅对老师有帮助，对家长也有帮助。同样，如果教师知道他的学生与全国的学生比较后所处的位置，他就可以利用这些信息来制定适当的课堂教学。不过，现在任何年级水平的儿童都有可能知道大量的知识或技能，这给标准化成就测验带来了真正的困难。如果一个测试要覆盖所有的知识点和技能，这会导致考试过程过于漫长。标准化考试测试的项目样本应该比实际需要的小得多，因此这种考试在内容范围上比实际的要窄得多，通常测试只在某一个学科领域测试40~50个项目。

准确的分类

开发标准化成就测验的任务就是基于少数项目建立一个评估工具，从而产生一个学生的位次的常模，参照的最好标准是大约一半的学生回答正确。聪明的标准化考试开发者会不断避免太大或者太小的学生样本。

对于学生测试的成绩进行抽样和评估，是一件非常复杂而艰巨的工作。假设全国常模是代表整个国家，那么产生的数据对于教育者、家长及学生都是非常有用的。其中一个最有用的推论是学生在学科方面的优势和劣势。如果一项测试中有较多的内容可测，也可以知道学生在这所学校学习的广度和深度方面的情况。如，数学的标准化测试有15项基本的计算题、15项几何题、15项代数题，就可以考查学生对于这三个领域在哪个方面具有相对优势或劣势。不过，如果考试包含的内容过少，对于学生的强项或弱项意义不大。第二个基于标准化考试的有用信息是涉及学生在不同学科领域的成长情况。例如，每三年学生参加统考，有一个学生大部分科目的成绩和以往相比差异不大，但数学却出现急剧下降，在某次考试后尤其如此，这就是有用的信息。但家长和教育工作者往往把太多的关注放在标准化考试成绩的精密度和准确度上，要知道影响分数的因素有很多，所以这种测试的数据是比较粗糙的。综上所述，标准化考试的成绩提供了全国范围内的学生的知识体系和技能的一个常模的参照，这是一个很棒的工作，相当有用。但是，给定的内容领域中所代表的广度和宽度必定是有限度的，所以，标准化考试测验成绩不应该用来评估教学质量，那不是它们该做的。

用一个汤匙来测量温度

标准化成就测验不应该被用来衡量教育质量，最主要的原因是，学生的成绩并不代表教育效能，任何基于它的对教学质量的推理往往是无效的。采用标准化考试的成绩来确定教育质量像用一把汤匙来测量温度——汤匙可以测出热或冷，标准化考试的成绩在指示好或者不好的学校方面有不同的测量任务。它应该被用来作比较的，目的是提供参考，而不应该被用于衡量教育质量。为什么说从标准化考试分数推测教育质量是完全无效的呢？我认为主要有以下两个重要原因。

1. 测试与教学不匹配

这些标准化考试的数据都是由大公司所有，由公司创造和销售的。像所有营利性企业一样，这些公司试图为他们的股东带来收益。销售标准化考试题的巨大压力和在市场上遇到的困境，以及美国各地大量课程的多样性，使得标准化考试与各地不同的课程教学内容对接上存在脱节现象。在州里问题变得更加复杂，因为不同州或者地区的学校可以有更多的本地化的课程。

通常，教育者在不同环境中追求的目标是类似的。例如，你可以肯定的是，所有的学校都会注意语言艺术、数学等。但是，这是通常情况。在这个水平上真的有差别的课堂教学，在教育目标追求上存在差异。这提出了一个问题，让那些必须出售标准化成就测验的企业来解决。

基于全国范围的课程多样性的情况，测试开发人员不得不创建一系列的一刀切的评估。但是，均码的衣服并不适合所有的身材。这些测试的设计师，他们可以在选出的最佳测试项目中测量所有内容领域的知识和技能，这只是他们所认为重要的，并不能够把所有学习内容包括进去。因此，标准化考试的成绩总是包含了很多项目，在特别设置的环节总是特别强调。这说明了本地教学内容与标准化考试所考内容之间的严重不匹配。教育者都知道，密歇根州立大学的弗里曼和他的同事们在1983年发布了一个重要研究报告，他们选择了五个全国标准化考试的数学成绩，研究了4~6年级的教学内容，发现对考试成绩影响最大的还是学生们的教科书，他们还研究了4~6年级四种广泛使用的教科书，采用严格的审查程序，研究人员发现，标准化成就测验的项目并没有对教材有足够的重视。结论是，50%~80%的考试内容在教科书中并没有适当地解决。密歇根州立大学的研究人员说：“一个标准化的测试，对教材的使用不超过50%。”

好的，如果标准化考试的内容不在广泛使用的教科书中有令人满意的解决，那它就不会有一个特定的教育环境。不幸的是，因为大多数教育工作者没有真正熟悉标准化考试的成分，他们通常认为，一个标准化成就测验就是儿童阅读理解能力评估。“那很可能就是所谓的地方阅读测验而己，而更多的情况是，测试与教学之间并没有必要的匹配。”

如果你仔细研究标准化考试手册中的描述性材料，你会发现，这些描述需要对教材适应。与教材的不匹配，不管承认与否，往往会导致虚假的结论。将这个分数作为教育效益的指标设置，具有一定的局限性，因此标准化考试不应该被用于确定一个地区、一所学校或者一个老师的教学状态，几乎可以肯定，所教的和所考的不匹配。

2. 混淆因果关系

要理解这当中的因果关系，我们看一看标准化考试的考试种类，搞清楚什么是标准化考试，你得吃透内容本身。这里给的三个说明的项目只是模拟的版本，并没有本质上的区别。有三个因素令人困惑：一是学校里教什么；二是学生的母语知识能力；三是学生在校外的学习情况。学校里所教的，有些考试的内容和技巧，在这些特定的学习内容中，如数学，孩子们在学校中所学的绝大多数的内容就是他们所学的，很少有父母花很多时间教孩子复杂的代数和如何证明几何题。所以，如果你看一下标准化测验的项目，你会发现很多类似于下面所示的数学题，这是从一道三年级的考试题中稍作修改而来的。

题1 莎莉有14个梨，她拿走了6个，下面的一些算式中哪个可以用来计算莎莉留下了多少只梨？

A.14 + 6 = ___

B.6 + 14 = ___

C.__ －6 = 14

D.14－6 = ___

这道数学题能帮助教师考查三年级学生选择用减法的问题，采用一致有效的推理能力，口头陈述能力，或者如加法、乘法和除法的能力。这个题目将有助于学生选择适当数量的句子来进行各种基本的计算问题，培养一种口头形式的有效的推理能力。如果这种测量实际上已经在学校中学过了，我不会反对使用这些测试来确定教育质量的好坏。不过，你要看到，另外一些内容却藏在标准化考试的中间，即一个学生运用母语知识的能力。我希望所有的孩子都天生具有相同的智力，但事实并不是这样。有些孩子在基因方面是幸运的，有些孩子一出生就比别人容易学数学，有些孩子在语言学习方面比别人更聪慧，如果孩子在来到这个世界时继承了相同的知识能力，教师的教学问题会更简单。

教育者最近的研究表明，人的智能有多种表现形式，而非只有一种（加德纳，1994）。一个孩子天生处理定量或者口头任务的能力较差，因此，可能具有更大的“人际关系”或“内省”的能力，不过，后面的能力不能通过测试来得到。下面是一道六年级的社会标准考试题，试图用来衡量一个孩子的能力，但我不认为这个内容是可以在学校中学到的。

题2 如果有人真的想节约资源，下面哪种方法是好办法？

A.即使不需要也开灯

B.在洗衣时开小档而不是大档

C.在一张纸的两面都写

D.在垃圾中放置报纸

在这个六年级的社会研究题目中，仔细看四个答案选项。读每一个选项，看它是否可能是正确的。我认为，一个“聪明”的学生可以看出，选项A、B、D不会“节约资源”，于是选择C。聪明的孩子比不太聪明的孩子在这个问题的处理上要快得多。不过为什么是这样，你可能会想，这种测试题目的开发者他们有发展的思路吗？答案很简单，这些内容，由于天生的智力技能，这与学校不太相关，对于考试成绩，分数方差之类，再加上几个所谓评定学生的限制，这就成为构建标准化测验的制作秘诀了。但是，这样一个内容主要是衡量不同的学生天生的智力，明显不利于如下有效推论“学生们是如何被教好的”。我们会让所有的孩子在这种“本土智慧”上做好文章吗？当然可以，但使用这样的内容来判断教育的有效性是错误的。

标准化考试最麻烦的项目就是如何测试学生在学校外面所学到的知识。不幸的是，你会发现，这比你想象的东西要多得多。如果孩子来自于优势的家庭和刺激丰富的环境中，他们更容易成功。下面这道题清楚地表明了这一点。

题3 植物的果实总是包含种子，以下哪项不是一种水果？

A.橙

B.南瓜

C.苹果

D.芹菜

这道六年级的科学题首先告诉学生一个水果的属性是什么（即，它包含种子）。然后，学生必须确定什么“不是一个水果”，这是通过选择没有种子而找到了。如果孩子们了解芹菜，它是一种无种子的植物，这就是正确的答案。对应芹菜的选择就是正确的，答案为D。不过如果你年幼时父母没有钱在商店购买芹菜，如果你到六年级时你的境况根本不给你与芹菜这种植物接触的机会，你认为你会答对这道题目吗？这就是孩子的社会经济地位与标准化考试的表现之间的关系。你的家庭社会经济地位越高，你就越有可能在一些测试项目中做得更好。

如果你是一个学校的校长，学校中大部分孩子来自社会经济境况差的家庭，在考量学生的丰富背景知识的标准化考试中，你的学生做得如何？没错，你的学生不可能获得很高的分数，这是否意味着教师教得很差？当然不是。相反，让我们想象一下，你是一个富裕学校的校长，这些学生的家庭是上层阶层，孩子的父母受过良好的教育，每年春天你的学生的标准化成就测验的分数是高得耀眼，这是否意味着你学校的教师正在做一个超级棒的教学工作？当然不是。最主要的原因是，儿童的社会经济地位与标准化考试成绩相关，标准化成就测验的许多内容专注于评估知识或技能，学校以外的知识或技能更可能是在一些社会经济环境的比拼。

（本文翻译自以下网址：http://www.ascd.org/publications/educational-leadership/mar99/vol56/num06/Why-Standardized-Tests-Don´t-Measure-Educational-Quality.aspx）

（译者单位：广东深圳市华富中学）