华东师大崔允漷：评价不创新，创新人才培养只是一句口号

看点 “如果评价没有创新，评价方式、评价目标、评价技术没有创新，那创新人才培养又是一句口号。”在第八届北京中学构建未来理想学校学术研讨会上，华东师大课程与教学研究所所长崔允漷做了题为《素养时代的学习评价》的演讲，分享了自己对学习评价改革的思考。

本文转载自公众号：中小学教师参考（ID：gh_490c523b3446）

文丨崔允漷编丨Jennifer

今天主要和大家分享两点：

一、学习评价的五大困局。

二、新课标需要怎样的新评价？

学习评价的五大困局

现在我们天天在讲评价，但我们的评价存在哪些问题？

困局之一：评分=评价=育人吗？

这是一位初一学生的日记。其中可以看到，没得到100分的时候，学生对100分很渴望，给了他100分，他一点成就感都没有。

我很想问老师一个问题，我们给100分是为了什么？

想全班只有他一个人是100分，其他人都不及格，这样的人是我们想培养的吗？

我们一直在做的评分，真的是在评价吗？又真的是在育人吗？

困局之二：总分=合理吗？

我们的中考、高考一直在以总分为标准录取。但总分合理吗？

比如说，1分语文+1分数学+1分英语=3分。这三分意味着什么？难道1美元+1日元+1元人民币能=3元吗？

我语文考100分，你语文考95分，哪位老师能说清楚，这5分意味着什么？而现在人人都盯着100分，这是教育内卷、社会焦虑的直接原因。

我总分600分，语文130分；你总分595分，语文140分。结果却是我上了北大中文系而你上不了，因为我数学考得比你好。

这就是总分录取的问题。

困局之三：双向细目表在测什么？

双向细目表把狗进行了分解，狗头考了解，狗身考记住，狗腿考理解，狗尾巴考简单应用。最后考了100分都不知道什么是狗。

我们可以思考，各知识点质量相加就是学科学业质量吗？双向细目表能测出关键能力、必备品格、价值观念吗？高分低能、有分无德、唯分是图的根源在哪儿？

困局之四：小组评价？

新课程倡导小组评价，一组有6位同学，大家按分工齐心协力，合作愉快，顺利完成了任务。结果老师说，6人中只有一个人是优秀，其余都是良好。

六分之一的“优秀”如何产生，是个世界难题。本来是“集体学习”，为什么评价的时候又按照“个体”来评价？为了六分之一的优秀，会不会催生举报、打小报告、不公开、不民主等“反教育”的做法？

评价本来是育人的，结果反而可能催生“反教育”的结果。

困局之五：统一考试=公平吗？

就为了统一考试，让猴子、大象、鱼都去爬树，现在高考、中考是不是都是这样？

所以，教育搞了这么多年，遇到的很多问题是常识问题。我们是不是也要考虑从有到无？重新思考，重新设计？

新课标需要怎样的新评价？

大家都知道，现在已经进入了核心素养时代。

新修订的课程标准整体都是以核心素养为纲，课程标准要回答六大问题：

课程性质与基本理念、学科/课程核心素养与课程目标、课程结构、课程内容、学业质量、实施建议。

这六大问题是六颗珍珠，打造好还不够，还要变成项链，中间串起项链的线，就是核心素养。

新课标会带来新评价。

核心素养目标下的学业质量是什么？不是狗头考了解、狗身考记住，是确立观念、形成信念、解决问题，能做事，能制造产品，形成方案，这样的目标才叫素养目标。

而且，必须超越课时，超越课文，超越知识点，以单元为单位来设计教学，才能实现这样的目标。

单元靠什么来组织？要靠大问题、大项目、大观念。

为什么要加“大”？

现在谈到教学设计经常会讲问题导向、活动导向、任务导向，很多老师也每一堂课都有问题、有活动、有任务，但问题放得太多。老师们可以想想，这样的课程下，学生一点思考的空间都没有。没有思维的价值，这些问题还有意义吗？

所以，现在不是关注小问题，而是只关注大问题，一个单元只解决一个问题。首先要澄清这个问题，然后把这个问题分解成子问题来组织单元。

现在的教育，学生那么忙，老师那么忙，到最后公德责任心、创新精神、社会责任感都没有，怎么解决这个问题？

大单元教学设计评价，首先要研究学业质量。什么叫学业质量？学业质量是学业成就的综合表现。

素养目标之下，评价改革的方向是：匹配素养目标，创设评价任务；超越知识点，超越双向细目表；产品结果导向，真实问题解决；改变评分方式，减少标准答案。

改革有三条路径：

路径1.纸笔考试——仍是选拔性考试的主要方式

在当前的背景下，纸笔考试不会取消，而且仍然是选拔性考试的主要方式。

但纸笔考试需要改。怎么改？

既然双向细目表已经完成了它的使命，需要退出历史舞台，比如生物学科中，细胞考了解，遗传考记住，ATP考理解，考了半天没有生命观念，那就要重建试题属性，三维要素：在什么情境下，运用哪一类知识，能做什么事、解决什么问题，一个都不能少。

知识要不要？当然要。核心素养没有学科知识，没有学科观念，没有学科思维，那还要学校干什么？学校就是让学生们学习系统化知识的场所，这些知识是人类文明的精华。

但学生学的不是了解，不是记住，而是把内容知识、程序性知识、认识论知识三类知识，在不同的情境下应用，这才叫素养。

以PISA为例。PISA测试的就是学生的素养。下面我们来看看PISA是如何通过考察“面积”的相关知识来测量学生素养的。

2009年，PISA有一个题目：假如你家里有个菜园，需要用篱笆把它围起来，下面有五种图形，五种围法，怎么围起来，菜园面积最大？

有老师可能会有疑问，家里没有菜园怎么办？真实情境不是按你家里有没有菜园，真实情境是生活情境，所谓情境，是与人互动的环境。

真实情境最主要是真实任务，怎么把菜园围起来，这就是真实任务。

2018年，PISA还有一道题，你家里的房子已经粉刷10多年了，需要重新粉刷一遍，已知你房间的长宽高分别是XX米，以及房间的门加上窗的面积是XX平方米，问要粉刷多大的面积？

有些老师听完这道题可能感觉，我们平时的应用题也是这样的啊。

但两者的差异在哪里？

我们平时做了那么多数学作业，绝大部分都在做这张图红线右半边的事，抛出问题，解题，得出标准答案。做那么多题目，其实训练的都是解题技能，不是真实情境下的问题解决能力。

PISA的两道题目，首先都是把真实情境下的一个问题，经过抽象化变成数学题，解题之后得出答案，再把答案推到真实情境中去评价，哪一种答案最优。

比如，把家里的房间粉刷一遍，这个题目就有多种答案，一种答案需要考虑地板要不要粉刷？另一种答案要考虑，门和窗的面积是加上去还是减掉？

不同的答案有不同的分数。

PISA的题目启示了我们，什么叫做真实情境下的问题解决能力与解题能力？什么叫做真实情境？什么又叫做模拟情境、虚拟情境与问题背景？

以及，什么叫做真实任务？什么是“我的”任务和“与我无关的”任务？

让学生感受到这个任务跟他有关系，学生就会感兴趣。人在本质上就是功利的，做了那么多数学题、化学题、物理题，没有感觉到数理化对自己有用，怎么能坚持下来？这是我们需要思考的。

从2018年开始，国家考试中心、北京考试院、上海考试院，都在朝“创设真实任务”这个方向走。

2018年、2019年、2020年，全国语文三卷的高考作文题一直在考写信。为什么年年考写信？因为写信就是创设的真实情境，考写信就是考真实情境下的语言建构与书面表达，这是语文素养。

考卷的方向非常清楚，但很多高中语文老师还没有反应过来。大家看这些题目，发言稿、演讲稿、主持词，都是考真实情境下的语言建构与运用。

为什么举这个例子？去年9月1日，我收到了一位重点师范大学的硕士毕业生给我发的邮件，他要考我的博士。大家可以看看，这就是一个重点师范大学硕士生写的邮件。

这个问题要引起我们反思。语文课时没有减少，语文老师那么劳累，全国的学生学得也那么辛苦，甚至是痛苦。但国民语文素养每况愈下，一代不如一代。

举个例子，50后、60后中可以拉出一批人写诗、写毛笔字，80后能写诗的还有几个？有的80后标点都不太会用。00后不止标点，话都快不会说了，所有的停顿都用“然后、然后、然后”。

路径2. 表现评价——素养导向评价改革着力点

核心素养主要是指真实情境下的问题解决能力，讲得通俗一些，核心素养就是能做事，其中“关键能力”指能做成事，“必备品格”指习惯做正确的事，“价值观念”指坚持把事做正确。三个点都指向把事做成。

既然核心素养的表现是能做成事，那核心素养最匹配的评价方式就是表现评价。评价方式一定要跟目标匹配，什么样的目标就用什么样的评价方法。

比如我们经常讲的“牌品如人品”“棋品如人品”，这都是表现评价。包括体育方面的考试，很多项目都是现场评价，也是表现评价。生活中充满了表现评价。

表现评价有三大类，第一类叫构答反应，包括图表/图解、概念图、网络等等；第二类叫作品，包括短文、研究论文、日志/日记等；第三类叫行为表现，包括口头汇报、舞蹈/运动、演示等。

这些表现评价某种程度上就是针对“高分低能”的问题，许多东西纸笔考试考不出来。

路径3. 过程数据（e评价）-评价与技术融合新方向

以前许多不可能实现的事，现在可以通过技术来解决。

比如我们要考一个人是不是礼貌行车，拿一张试卷考他一下，能考出来吗？显然考不出来。

那做表现评价呢？假设我是考官，一旦这个人开车出门，我就坐在他的副驾驶上，或者跟车观察他的表现，这样行不行？也不行。

首先，这种评价方式成本太高了，第二，个人是否礼貌行车有这么重要吗，需要派一个考官跟着他到处走？第三，这叫“跟踪”，是违法的。

所以，要评价一个人是不是礼貌行车，唯一的办法就是靠过程数据。什么叫过程数据？我们提前告诉驾驶员，现在要采集数据，每辆车都安装行车记录仪，过两周或者两个月把采集到的数据交给人工智能去计算，最后得出驾驶员在礼貌行车上的等级水平。

5G、云储存、AI三大技术的出现和发展，让获取过程数据完全成为可能。这样，对品格、道德的评价，能通过过程数据解决，从而解决“有分无德”的问题。

2014年的高考新政提出“两依据一参考”，把综合素质评价信息作为人才选拔的参考。七年过去了，实现参考了吗？为什么做不到参考呢？

北京中学、人大附中、北京十一学校，不同的学校考试方式不一样，数据也不一样，不可比的数据就成不了证据。而成不了证据的数据其实就是一堆乱码。

有效的证据来自哪里？来自大数据，这就是e评价。

当每一个学生高中三年上课和做作业，都有技术采集的数据，其实某种程度上，高考都可以取消，只要分析数据就行。当然，在目前这个阶段，这还只是一种设想，但我们可以沿着这个方向去探索。

让每个学生都有一个个人的数据库，而且这些数据是可比的。到那时候，高考就是分析一下数据，结合学生的兴趣，匹配学校和专业。

最后我想讲，评价是教育专业化最后的堡垒，中国人好评，但是不会评，不专业，不重证据，不重逻辑。

关于创新人才培养，首先需要创新评价，如果评价没有创新，评价方式、评价目标、评价技术没有创新，那创新人才培养又是一句口号。

关注外滩教育

发现优质教育

继续阅读

阅读原文