看点 “如果评价没有创新,评价方式、评价目标、评价技术没有创新,那创新人才培养又是一句口号。在第八届北京中学构建未来理想学校学术研讨会上,华东师大课程与教学研究所所长崔允漷做了题为《素养时代的学习评价》的演讲,分享了自己对学习评价改革的思考。
本文转载自公众号:中小学教师参考(ID:gh_490c523b3446)
丨崔允漷   编丨Jennifer
今天主要和大家分享两点:
一、学习评价的五大困局。
二、新课标需要怎样的新评价?
学习评价的五大困局
现在我们天天在讲评价,但我们的评价存在哪些问题?
 困局之一:评分=评价=育人吗?
这是一位初一学生的日记。其中可以看到,没得到100分的时候,学生对100分很渴望,给了他100分,他一点成就感都没有。
我很想问老师一个问题,我们给100分是为了什么?
想全班只有他一个人是100分,其他人都不及格,这样的人是我们想培养的吗?
我们一直在做的评分,真的是在评价吗?又真的是在育人吗?
 困局之二:总分=合理吗?
我们的中考、高考一直在以总分为标准录取。但总分合理吗?
比如说,1分语文+1分数学+1分英语=3分。这三分意味着什么?难道1美元+1日元+1元人民币能=3元吗?
我语文考100分,你语文考95分,哪位老师能说清楚,这5分意味着什么?而现在人人都盯着100分,这是教育内卷、社会焦虑的直接原因。
我总分600分,语文130分;你总分595分,语文140分。结果却是我上了北大中文系而你上不了,因为我数学考得比你好。
这就是总分录取的问题。
困局之三:双向细目表在测什么?
双向细目表把狗进行了分解,狗头考了解,狗身考记住,狗腿考理解,狗尾巴考简单应用。最后考了100分都不知道什么是狗。
我们可以思考,各知识点质量相加就是学科学业质量吗?双向细目表能测出关键能力、必备品格、价值观念吗?高分低能、有分无德、唯分是图的根源在哪儿?
 困局之四:小组评价?
新课程倡导小组评价,一组有6位同学,大家按分工齐心协力,合作愉快,顺利完成了任务。结果老师说,6人中只有一个人是优秀,其余都是良好。
六分之一的“优秀”如何产生,是个世界难题。本来是“集体学习”,为什么评价的时候又按照“个体”来评价?为了六分之一的优秀,会不会催生举报、打小报告、不公开、不民主等“反教育”的做法?
评价本来是育人的,结果反而可能催生“反教育”的结果。
 困局之五:统一考试=公平吗?
就为了统一考试,让猴子、大象、鱼都去爬树,现在高考、中考是不是都是这样?
所以,教育搞了这么多年,遇到的很多问题是常识问题。我们是不是也要考虑从有到无?重新思考,重新设计?
新课标需要怎样的新评价?
大家都知道,现在已经进入了核心素养时代。
新修订的课程标准整体都是以核心素养为纲,课程标准要回答六大问题:
课程性质与基本理念、学科/课程核心素养与课程目标、课程结构、课程内容、学业质量、实施建议。
这六大问题是六颗珍珠,打造好还不够,还要变成项链,中间串起项链的线,就是核心素养。
新课标会带来新评价。
核心素养目标下的学业质量是什么?不是狗头考了解、狗身考记住,是确立观念、形成信念、解决问题,能做事,能制造产品,形成方案,这样的目标才叫素养目标
而且,必须超越课时,超越课文,超越知识点,以单元为单位来设计教学才能实现这样的目标。
单元靠什么来组织?要靠大问题、大项目、大观念。
为什么要加“大”?
现在谈到教学设计经常会讲问题导向、活动导向、任务导向,很多老师也每一堂课都有问题、有活动、有任务,但问题放得太多。老师们可以想想,这样的课程下,学生一点思考的空间都没有。没有思维的价值,这些问题还有意义吗?
所以,现在不是关注小问题,而是只关注大问题,一个单元只解决一个问题。首先要澄清这个问题,然后把这个问题分解成子问题来组织单元。
现在的教育,学生那么忙,老师那么忙,到最后公德责任心、创新精神、社会责任感都没有,怎么解决这个问题?
大单元教学设计评价,首先要研究学业质量。什么叫学业质量?学业质量是学业成就的综合表现。
素养目标之下,评价改革的方向是:匹配素养目标,创设评价任务;超越知识点,超越双向细目表;产品结果导向,真实问题解决;改变评分方式,减少标准答案。
改革有三条路径:
 路径1.纸笔考试——仍是选拔性考试的主要方式 
在当前的背景下,纸笔考试不会取消,而且仍然是选拔性考试的主要方式。
但纸笔考试需要改。怎么改?
既然双向细目表已经完成了它的使命,需要退出历史舞台,比如生物学科中,细胞考了解,遗传考记住,ATP考理解,考了半天没有生命观念,那就要重建试题属性,三维要素:在什么情境下,运用哪一类知识,能做什么事、解决什么问题,一个都不能少。
知识要不要?当然要。核心素养没有学科知识,没有学科观念,没有学科思维,那还要学校干什么?学校就是让学生们学习系统化知识的场所,这些知识是人类文明的精华。
但学生学的不是了解,不是记住,而是把内容知识、程序性知识、认识论知识三类知识,在不同的情境下应用,这才叫素养。
以PISA为例。PISA测试的就是学生的素养。下面我们来看看PISA是如何通过考察“面积”的相关知识来测量学生素养的。
2009年,PISA有一个题目:假如你家里有个菜园,需要用篱笆把它围起来,下面有五种图形,五种围法,怎么围起来,菜园面积最大?
有老师可能会有疑问,家里没有菜园怎么办?真实情境不是按你家里有没有菜园,真实情境是生活情境,所谓情境,是与人互动的环境。
真实情境最主要是真实任务,怎么把菜园围起来,这就是真实任务。
2018年,PISA还有一道题,你家里的房子已经粉刷10多年了,需要重新粉刷一遍,已知你房间的长宽高分别是XX米,以及房间的门加上窗的面积是XX平方米,问要粉刷多大的面积?
有些老师听完这道题可能感觉,我们平时的应用题也是这样的啊。
但两者的差异在哪里?
我们平时做了那么多数学作业,绝大部分都在做这张图红线右半边的事,抛出问题,解题,得出标准答案。做那么多题目,其实训练的都是解题技能,不是真实情境下的问题解决能力。
PISA的两道题目,首先都是把真实情境下的一个问题,经过抽象化变成数学题解题之后得出答案,再把答案推到真实情境中去评价,哪一种答案最优。
比如,把家里的房间粉刷一遍,这个题目就有多种答案,一种答案需要考虑地板要不要粉刷?另一种答案要考虑,门和窗的面积是加上去还是减掉?
不同的答案有不同的分数。

PISA的题目启示了我们,什么叫做真实情境下的问题解决能力与解题能力?什么叫做真实情境?什么又叫做模拟情境、虚拟情境与问题背景?
以及,什么叫做真实任务?什么是“我的”任务和“与我无关的”任务?
让学生感受到这个任务跟他有关系,学生就会感兴趣。人在本质上就是功利的,做了那么多数学题、化学题、物理题,没有感觉到数理化对自己有用,怎么能坚持下来?这是我们需要思考的。
从2018年开始,国家考试中心、北京考试院、上海考试院,都在朝“创设真实任务”这个方向走。

2018年、2019年、2020年,全国语文三卷的高考作文题一直在考写信。为什么年年考写信?因为写信就是创设的真实情境,考写信就是考真实情境下的语言建构与书面表达,这是语文素养。
考卷的方向非常清楚,但很多高中语文老师还没有反应过来。大家看这些题目,发言稿、演讲稿、主持词,都是考真实情境下的语言建构与运用。
为什么举这个例子?去年9月1日,我收到了一位重点师范大学的硕士毕业生给我发的邮件,他要考我的博士。大家可以看看,这就是一个重点师范大学硕士生写的邮件。
这个问题要引起我们反思。语文课时没有减少,语文老师那么劳累,全国的学生学得也那么辛苦,甚至是痛苦。但国民语文素养每况愈下,一代不如一代。
举个例子,50后、60后中可以拉出一批人写诗、写毛笔字,80后能写诗的还有几个?有的80后标点都不太会用。00后不止标点,话都快不会说了,所有的停顿都用“然后、然后、然后”。
 路径2. 表现评价——素养导向评价改革着力点 
核心素养主要是指真实情境下的问题解决能力,讲得通俗一些,核心素养就是能做事,其中“关键能力”指能做成事,“必备品格”指习惯做正确的事,“价值观念”指坚持把事做正确。三个点都指向把事做成。
既然核心素养的表现是能做成事,那核心素养最匹配的评价方式就是表现评价。评价方式一定要跟目标匹配,什么样的目标就用什么样的评价方法。
比如我们经常讲的“牌品如人品”“棋品如人品”,这都是表现评价。包括体育方面的考试,很多项目都是现场评价,也是表现评价。生活中充满了表现评价。
表现评价有三大类,第一类叫构答反应,包括图表/图解、概念图、网络等等;第二类叫作品,包括短文、研究论文、日志/日记等;第三类叫行为表现,包括口头汇报、舞蹈/运动、演示等。
这些表现评价某种程度上就是针对“高分低能”的问题,许多东西纸笔考试考不出来。
 路径3. 过程数据(e评价)-评价与技术融合新方向 
以前许多不可能实现的事,现在可以通过技术来解决。
比如我们要考一个人是不是礼貌行车,拿一张试卷考他一下,能考出来吗?显然考不出来。
那做表现评价呢?假设我是考官,一旦这个人开车出门,我就坐在他的副驾驶上,或者跟车观察他的表现,这样行不行?也不行。
首先,这种评价方式成本太高了,第二,个人是否礼貌行车有这么重要吗,需要派一个考官跟着他到处走?第三,这叫“跟踪”,是违法的。
所以,要评价一个人是不是礼貌行车,唯一的办法就是靠过程数据。什么叫过程数据?我们提前告诉驾驶员,现在要采集数据,每辆车都安装行车记录仪,过两周或者两个月把采集到的数据交给人工智能去计算,最后得出驾驶员在礼貌行车上的等级水平。

5G、云储存、AI三大技术的出现和发展,让获取过程数据完全成为可能。这样,对品格、道德的评价,能通过过程数据解决,从而解决“有分无德”的问题。

2014年的高考新政提出“两依据一参考”,把综合素质评价信息作为人才选拔的参考。七年过去了,实现参考了吗?为什么做不到参考呢?
北京中学、人大附中、北京十一学校,不同的学校考试方式不一样,数据也不一样,不可比的数据就成不了证据。而成不了证据的数据其实就是一堆乱码。
有效的证据来自哪里?来自大数据,这就是e评价。
当每一个学生高中三年上课和做作业,都有技术采集的数据,其实某种程度上,高考都可以取消,只要分析数据就行。当然,在目前这个阶段,这还只是一种设想,但我们可以沿着这个方向去探索。
让每个学生都有一个个人的数据库,而且这些数据是可比的。到那时候,高考就是分析一下数据,结合学生的兴趣,匹配学校和专业。
最后我想讲,评价是教育专业化最后的堡垒,中国人好评,但是不会评,不专业,不重证据,不重逻辑。
关于创新人才培养,首先需要创新评价,如果评价没有创新,评价方式、评价目标、评价技术没有创新,那创新人才培养又是一句口号。
关注外滩教育
发现优质教育
继续阅读
阅读原文