为集中展示教育质量监测与评价研究和实践的最新成果,探讨教育质量监测与评价的理论发展、方法改进及研究创新,北京师范大学中国基础教育质量监测协同创新中心于2017年12月24—25日召开了“第三届中国基础教育质量监测与评价学术年会暨博士生论坛”。年会主要采用大会特邀报告、分会场报告和博士生论坛三种形式。11个特邀大会报告、将近百个分会场报告及博士论坛,分别围绕如下主题展开:关键影响因素,监测技术与理论,语文、数学、科学学科监测,体育、艺术、德育学科监测。
中国基础教育质量监测协同创新中心副主任、北京师范大学罗良教授首先汇报了该中心2017年工作进展和2018年度重点工作。他强调,该中心的工作焦点为两项——基础教育质量监测和基于监测的基础教育质量提升,中心的工作,无论是学科建设、科学研究,还是人才培养、国际交流、管理,都是围绕这两个焦点展开的。2017年,该中心的主要工作如下:
(1)国家义务教育质量监测工作深入推进。2007年,教育部基础教育质量监测中心成立,同年开始第一次试点监测;2015年,《国家义务教育质量监测方案》发布,同年开始国家义务教育质量正式监测,三年为一个监测周期,2015年监测数学和体育学科,2016年监测语文和艺术学科,2017年监测科学与德育学科。经过十年,国家义务教育质量监测体系已然形成,建立了国家义务教育质量监测十年数据库,基本形成一体化教育评价网络化平台,形成适合监测工作特点的协同团队工作模式,并研发了数学等值方案,实现了轮次间测试等值,研发了体育电子录入系统。
(2)国际学生评估项目(PISA)进展顺利。中国基础教育质量监测协同创新中心受教育部委托,统筹负责PISA 2018实施工作,明确年度主要工作,协同中心多方力量,完成工具修订、抽样、材料准备、预试问卷编码等工作。
(3)基于质量监测,从三个方面面向全国开展多种基础教育质量提升工作:解读监测结果,研发由高校引领、地方协同的质量提升模型“GDZ”;实施“中国好老师”行动计划;在北京实施高校参与小学体育、美育发展项目。
(4)为了监测相关学科,推进监测高端人才培养,实施了多种措施:布局研究教育监测重大问题、围绕监测产出高水平科研成果(发表于SSCI期刊40余篇,发表于CSSCI期刊90余篇)、协同举办学术会议(如“首届京师教育大数据挖掘与应用年会”)、共享高端课程资源(慕课网站上线15门课程)、聘请国际专家、培养学生深度参与监测的实践能力,等等。
东北师范大学史宁中教授介绍了核心素养下高考评价改革的思考,强调“无论是教育质量监测还是高考,未来必须有一个新的理念、新的考试形式与监测形式。在中国未来大概十年,离不开核心素养”。他首先回顾了从教学大纲到课程标准、从“双基”(即基础知识与基本技能)到“四基”课程标准的改革历史,并回归现今核心素养的提出,以此对核心素养背景下的高考评价改革进行思考:
(1)1923年的“新学制课程标准起草委员会”确定了“6+3+3”的学制;1952年,教学大纲学习苏联,关注基础知识和技能训练,确定知识窄而深的传统;1963年,教学大纲明确提出“双基”和三大能力(计算能力、逻辑思维能力、空间想象能力);1978年,教学大纲形成课程内容混合编排、不再分科的模式。从过去到现在,我国实现了从“以知识为本”到“以人为本”理念的转变,实现了从“以知识技能为核心”的一维目标到三维目标再到核心素养的转变,实现了从“一看就会,一做就对”的注重结果的“应试教育”到强调经历过程、发展思维的注重“结果+过程”的核心素养教育的转变。
(2)在党的十八大提出、党的十九大进一步强调“立德树人作为教育的根本任务”的背景下,史教授提出核心素养的概念为:后天习得的、与特定情境有关的,通过人的行为所表现出来的知识、能力和态度,涉及人与社会、人与自己、人与工具。因此,数学教育的终极目标为:会用数学的眼光观察现实世界(数学抽象、直观想象),会用数学的思维思考现实世界(逻辑推理、数学运算),会用数学的语言表达现实世界(数学模型、数据分析),分别体现数学的一般性、严谨性和广泛性。
(3)核心素养下高考评价需要从强调扎实的基础知识和熟练的基本技能,转变为增加考试时间(2小时拓展为3小时)、减少考试内容。史教授提出,要给学生更多的思维时间,而不是一味强调速度。此外,要建立新的理念,强调基于核心素养的学科理念、课堂理念、核心素养理念。数学是研究数量关系和空间形式的科学,它源于对现实世界的抽象,并基于抽象结构,通过符号运算、形式推理、模型构建等,理解和表达现实世界中事物的本质、关系与规律。数学课堂要把握数学知识的本质,把握学生认知的过程,创设合适的教学情境,提出合适的数学问题,启发学生思考,鼓励学生与教师交流、学生之间相互交流,让学生在思考和交流中掌握知识技能的同时,理解知识的本质,感悟数学思想,积累思维的经验,形成和发展自身的数学核心素养。同时,还要增加考查学生思维的试题。
西南大学宋乃庆教授的报告题目是“基础教育测评模型构建及应用探析”。宋教授在上一届年会报告过的测评模型内涵和表现形式、构建目的和意义,以及构建测评模型的主要步骤的基础上,尝试以初中生课业负担测评模型、小学数学教科书难易测评模型、初中生信息技术素养为例说明基础教育质量监测测评模型的应用与实践:
(1)对于初中生课业负担测评模型,先用探索性因素分析划分维度、构建测评指标体系(课业难度、课业消耗、课业任务等),并在3所典型学校中检验模型的可操作性与可靠性。宋教授发现,好学校容易陷入“校内减负,校外增负”的尴尬,城郊普通中学面临“贯彻减负”还是“提高成绩”的两难选择,多方博弈让它们深陷减负困境。此外,“学霸”自己有追求,会自己增负,而“学困生”表面上负担减轻,实际上负担很重。
(2)基于大数据,从16个指标中选择3个主要指标(内容广度、深度、习题难度)构建数学教科书难度模型,探索国际小学数学教科书难度。研究表明,在12套教材中,我国小学数学教科书的总体难度居中等偏上水平,而所研究的欧洲国家小学数学教科书比我国小学数学教科书总体难度更大,但其学生的数学学业负担普遍较我国学生轻,可见,影响小学生数学课业负担重的原因不在教科书。我国小学数学教科书的内容广度(知识点数量)相对靠后,处于中间偏后位置,而习题难度相对靠前,处于中间偏前位置,因此,我国数学教科书还可以在知识点上进一步增加,以拓宽学生的数学视野,同时可适当降低习题的难度,以进一步减轻学生的数学学习难度。
(3)初中生信息技术素养模型,则通过析取各国信息技术素养的维度(如信息意识、信息知识、信息获取、信息管理与组织、信息交流与利用、信息评价、信息创新、信息道德),得到了学生信息技术素养的操作性定义,然后采用探索性因素分析、验证性因素分析以及信度、效度检验,构建了初中生信息技术素养测评模型,从信息技能、信息知识的外在表现、信息道德与安全、信息意识、“互联网+”思维的内在思维等维度,检验城乡差异和性别差异,并进行了个案追踪,提出提升方案(基于测评的问题、三方协作的路径、三大能力的目标)。
美国孟菲斯大学的胡祥恩教授介绍了语义分析的一般框架及其应用。语义表征分析(semantic representation analysis,SRA)是一个基于向量的语义分析的一般框架。在这个框架内,自然语言的语义以诱导语义结构(ISS)的形式表示。SRA在信息检索(IR)、文本分析和智能导学系统(ITS)中都有应用。智能导学系统使用的是对话评估。对话评估是相对于试题评估而言的,它与试题评估的不同之处在于:对话评估不是通过学生对试题的回答来评估学生,而是通过学生与系统的交互对话来评估学生,语义表达是对话评估的一项重要技术。语义表达首先要建立语义空间,即字、词、段落用向量表示。建立语义空间需要三个步骤:建立语料库(corpus)、方法(encoding methods)、应用(applications)。语料是最小的语言单元,通常它是单词,但有时候也会是习语。目前还没有一个理论框架能解决语义表达的质量评估。构建语义空间的三个公理及推论能确定学生的答案与标准答案之间的关系,而且可以像光谱分析一样分析任何两段话之间的关系。最后,胡教授认为,自然语言交互是一种最古老的人类交流方式,计算机理解和表达自然语言是一种重要技术,从文本中抽取语义,并提高其质量是终极目的,也可能成为中国在世界测量学领域的一项领先技术。
香港中文大学侯杰泰教授的报告题目是“教育监测:怎样引发公众对教育的关注”。教育质量监测自1960年在美国率先开展,其重要性日益为人们所认识。目前,几乎世界上所有的国家都开展了国家或地区层面的教育质量监测,以此来监控教育工作的进步,以及教育部、区域和学校各层面的变化。通过一系列相应的问卷,教育质量监测体系可以帮助甄别有利于学生学习的成功因素。报告介绍了香港近期在教育监测方面所采用的方法及结果。侯教授参照OECD所主持的国际学生评估项目(PISA)的报告,并基于香港的资料报告了一些议题(如早餐、睡眠、家长参与、网络欺凌、网络成瘾、体育锻炼等对学生学业成绩的影响)的研究结果。例如,坚持吃早餐能提高学生学习成绩1.5年;家庭收入对吃早餐没有影响;英文幼儿园并不能提高孩子的英语成绩,却使得其语文成绩和数学成绩下降;学校之间的差异在初中会比在小学大;母亲教育水平、父亲教育水平、家庭收入是学生学业成绩的高影响因素,而幼儿园、英文学习动机、家长讨论学校生活、体育运动是学生学业成绩的低影响因素,动机、兴趣、师生关系、控制感、焦虑、家庭参与等对小学3年级和初中3年级学生的影响比例在1%到6%之间。报告也分享了如何利用一系列的研究通讯和出版物,引起香港公众及各界对学校和学生成功因素的关注。无疑,社会公众、学校和家长对教育的关注及了解,会进一步促进各方协力为孩子提供更高品质的教育。
西南大学的李玲教授报告了西部9年级学生学科素养及影响因素监测追踪数据库及其分析结果。他们团队建立了追踪数据库平台,以国际标准每年对西部107所学校7000多名9年级学生的语文、数学、科学、艺术、计算机信息技术素养进行监测;同时,对学生的身心健康、学习效能、辍学情况、家庭状况、师生关系、同伴关系、校园环境、教师教学效能、校长领导力、学龄人口、经济社会发展状况、各级政府教育发展的努力程度等背景变量进行监测。基于质化和量化数据分析,他们运用教育学、管理学、社会学、经济学等的理论和方法,对区域、城乡、学校的教育资源配置状况进行了动态监测和预测,并初步探究了校长的各种领导力、城乡教师教研组活动、不同学生的社会阶层、学生的教育期望、同伴关系等对学生学科素养的影响路径,以期为西部教育精准脱贫、为西部教育战略和决策提供智力支撑。此外,还有其他文章予以佐证。《省级教育经费统筹改革的分配效果理论与实践问题》一文使用经济学、社会学、教育学监测教育资源配置的均衡性,得到结论:财政分权体制国家,省级统筹不会产生替代效应,城市内部和农村内部差异大于城乡差异。发表在Current China的一篇文章得到结论:省级政府为保持“三增长、两不变”,动员各种地方政府资源,这种情况不稳定。发表在《教育研究》的一篇文章研究了城乡义务教育未来20年学龄人口的变动趋势。一篇研究“科学资本”对西部学生科学职业愿望影响的文章得出结论:高科学资本学生更易受家庭文化资本、自我科学态度及科学自信的影响,愿意从事科学相关工作;中、低科学资本的学生则更多受自我教育期望(自我选择)的影响。一篇研究“西部学生教育期望生成机理及群体差异”的文章得出结论:中学生家庭社会经济地位和父母教育期望(“接受机制”)对自我教育期望的影响存在群体差异,阅读素养和科学素养测试成绩(“适应机制”)对自我教育期望的影响存在群体差异。还有一篇文章则发现:校长领导力显著正向预测教师组织承诺与学生数学素养,教师组织承诺在校长教学领导力和学生数学素养之间起部分中介作用。
北京师范大学郑国民教授的报告“对语文考试与评价的思考”主要从两个角度——中考、高考语文测试的发展与变化,语文考试的“中国特色”与“国际化”,对考试进行探讨。他有如下观点:
(1)一直以来,中考语文试题的内容主要是词语积累与运用、古诗文阅读、现代文阅读、口语交际、综合性学习、写作,高考语文试题的内容主要是语言积累与运用、现代文阅读、古诗文阅读、写作。但近几年来,积累知识部分的考试内容由原来的字音、字形、字义、标点符号、使用词语、辨析并修改病句、修辞、文学常识,更改为优秀诗文、名言警句、成语、名著阅读,而且主要在情境中进行考查。这种变化体现了我们由要求学生占有知识到要求学生运用知识解决问题的考试理念的转变,也体现着人们认识到语文实践活动具有情境性,实践者必然受其自身的文化背景、个体经验以及具体的、特定的活动情境和条件的影响。优秀诗文的诵读,不仅丰富了学生的语言材料,而且保证了考试质量,因为这些语言材料生成能力较强;从优秀诗文中获得的一流的语言材料会在学生的言语活动中焕发无限的生机和活力;优秀诗文还会给学生展示丰富多彩的文章样式,以及作者对社会、人生等方面深刻的认识与体验。
(2)语文核心素养包括语言建构与运用、思维发展与提升、审美鉴赏与创造、文化传承与理解,这些核心素养该怎么考查?其实,学生所做的习题的数量与孩子最后的阅读水平毫无关系。另外,大量实验证明,学生的文化知识背景对于其阅读能力具有重大影响;不同的语言文字、文化对写作教学发挥着重大的作用。人总是在特定情境下进行阅读写作活动的,所以,教师可以将阅读和写作能力放置在情境中进行考查,并要重视具有不确定性的跨学科探究主题和社会实践活动,创设整合的、情境化、不完整结构的任务。教师要从关注碎片化学科知识技能的习得,转变为关注复杂、不确定性的现实问题解决;从关注对他人知识的理解或反应,转变为关注综合运用和主动创造知识;从关注学什么,转变为关注如何学习和学会学习;从关注自我学习,转变为关注团队合作和沟通。
最后,郑教授总结了语文测试的“中国特色”:“优秀诗文和经典名著反映了中华民族的智慧,凝练地表达了对自然社会和人生的典型认识和体现,这样的内容具有奠基作用和生成价值。我们希望学生能在学习过程中逐渐将其融入血脉,使得我们中华民族的文化智慧得以延续下去。”
陕西师范大学胡卫平教授的报告“高阶科学思维能力的测评”主要介绍了高阶科学思维能力的概念及其重要性、高阶科学思维能力的核心要素、高阶科学思维能力各个要素的测评。高阶思维能力从哲学上看,是具有高阶思维的人所具有的品质和特征;从心理学上看,则关注思考过程,指人们解决问题、作出决策、学习新的概念等的过程中表现出来的心理过程、策略和表征;从教育学上看,关注行为表现,整合各种信息,形成新的标准,作出正确的判断、推理、决策,并解决问题。高阶思维的要素包括批判性思维、创造性思维、问题解决、决策思维、元认知。批判性思维主要指推理、分析与预测、评价、自我调节。创造包括创造性的产品、过程、个人、环境。问题解决实质上是运用创造性思维(多种组合的、序列的思维能力)、批判性思维(理性的反思、审慎的评判)的创造性问题解决过程。明智的决策者思考的五个问题亦是创造性思维和批判性思维。因此,高阶思维的核心要素是批判性思维和创造性思维。最后,胡教授还报告了一些科学高阶思维测评的案例,包括推理能力、论证能力、批判性思维能力、创造性思维能力,等等,提出了可以用于大规模测评的整合批判性思维和创造性思维的思路。如,科学推理测评包括理论推理、组合推理、比例推理、控制变量、概率和关系推理;创造性思维测评包括物体应用、问题提出、产品改进、创造想象、问题解决、实验设计、创造活动;技术创造力测评包括产品设计、材料运用、功能设计、技术方法、科技想象。
华东师范大学周兢教授的报告题目为“中国幼儿园语言教育质量的评价指标体系研究”。报告执行教育部2011创新研究“基础教育质量监测”课题任务,聚焦幼儿园语言教育质量的评价指标体系探讨,以学前儿童语言学习与发展核心经验为基本立足点,观察不同年龄阶段儿童在幼儿教育环境中语言学习与发展的成长梯度,从而反观幼儿园语言教育环境与互动过程,捕捉对促进儿童语言学习产生影响的重要因素。
美国伊利诺伊大学香槟分校朱为模教授的报告“体育到底应该怎样考?”旨在对国外过去百余年间的体育教学和考试的演变做个简要回顾,希望能为中国体育考试改革提出参考和建议。百余年来,国外体育教学发生了巨大变化,从过去的人多器材少、以竞技运动为主、运动技能优先、教师主导、强调比赛等,逐渐转变为今天的小群/个人教学、充足的器材、每个人都有可能成功、测量健康、知识并行、教师作为“私人教练”或指导,以及强调团队合作。教师队伍则从最早的医生兼任,渐变到过去大多有运动教练背景,到今天具有现代运动和健康知识与技能的专业人才。考试的重点也从过去的是否上课、着装、运动技能水平、体适能成绩,转变为今天的测量个人提高、自我评价、同学间互评诊断、运动行为/习惯的追踪,以及运动与健康知识的测评。目前,国外中小学体育大规模标准化测验有以下几个特点:以健康体适能(healthrelatedfitness)为核心的测评、以国家体育标准(standard-based)为依据的测评、以体育综合素养(physicalliteracy)为中心的测评。评价的方法也从过去的相对标准(与同龄和同性别的孩子相比)转向与健康有关的绝对标准。过去只是体育人关心的“有氧能力”在2016年12月被美国心脏协会认定为临床生命体征的一个部分,从而让“体医融合”有了一个共同的测评指标。因此,中国21世纪体育的考试应该是一个以健康为纲,以有氧能力、身体成分和力量的健康体适能为中心,结合运动行为/习惯,包含运动与健康的知识与技能,采用绝对评价标准为基础的评分体系的考核系统。
首都师范大学美术学院尹少淳教授的报告“美术学科核心素养本位及其测评”主要介绍了三个方面的内容:如何界定美术学科核心素养,如何认识核心素养与知识、技能的关系,美术如何测评:
(1)依据学科核心素养提炼得到美术学科核心素养,包括图像识别(指对美术作品、图形、影像及其他视觉符号的观看、识别和解读)、美术表现(指运用传统与现代媒体、技术和美术语言创造视觉形象)、审美判断(指对美术作品和现实中的审美对象进行感知、评价、判断与表达)、创意实践(指在美术活动中形成创新意识,运用创意思维和创造方法)、文化理解(指从文化的角度观察和理解美术作品、美术现象和观念)。
(2)一个形象的比喻是,知识和技能像钥匙,可以开锁(解决问题),因此,知识技能没有“原罪”,问题在于我们没能将知识、技能转化为核心素养,知识、技能不是万能的,但没有知识、技能是万万不能的。我们应该将知识与技能放在任务情境中学习。
(3)基于核心素养的美术评价,不再是对知识与技能的记忆,而是在情境中考查学生运用知识与技能解决问题的能力。如,考查成角透视有几个消失点等,可以命制这样的题目:站在天安门正门的位置,描绘人民大会堂应该运用什么样的透视方法?描绘人民英雄纪念碑又该运用什么样的透视方法?
国家德育监测首席专家边玉芳教授的报告题目为“德育监测的几个关键问题”。2015年《国家义务教育质量监测方案》确定监测学科为语文、数学、科学、体育、艺术、德育。立德树人是教育的根本任务。义务教育阶段的德育学科监测有助于客观、准确了解我国中小学生德育状况的特点和发展趋势、中小学德育工作的现状与特点,可以为促进义务教育阶段学生品德发展、德育工作改进提供科学的依据和重要的决策参考。报告围绕德育学科领域监测中的一些重要的核心问题展开。如,德育状况是否可测?德育监测到底监测什么?德育与《品德与社会》《思想品德》及即将统一为《道德与法制》的学科是什么关系?学生德育状况监测指标框架的依据是什么?德育状况监测主要应该采用什么方法?学生思想品德状况应该采用自评还是他评?德育状况监测结果如何呈现和解读?边教授基于对国内外大型相关项目的调研分析、相关学术研究成果及我国首次国家基础教育德育监测的实践探索,对以上问题进行了思考和回应。德育是可测的,内在的思想、情感、态度、价值观也可通过外显行为反映。德育监测内容的重点是测查学生对社会主义核心价值观以及中华优秀传统文化的理解,对日常生活中道德行为规范的掌握,对基本国情、地理和历史常识、安全和法律常识等的了解,与他人、与社会、与自然关系的认识。德育包括但不限于品德学科相关课程。通过国家德育相关政策文件、义务教育课程标准、国内外相关项目、文献分析、访谈调研、专家论证,边教授得到的学生德育状况监测的指标框架主要是:理想信念和价值观、行为规范、中华优秀传统文化、国情常识、法律素养。学生德育状况可以采用的测评方法包括测验法、问卷法、表现性评价法、观察法、访谈法及其他的新技术和新手段(如大数据分析等)。
本次会议围绕“从知识到核心素养的新时代测评”,从语文、数学、科学、体育、艺术、德育学科的测评,关键影响因素,监测技术与理论等多个领域探讨了在新时代如何将测评知识转换为测评核心素养,提出了注重考察思维、注重情境、注重过程、注重问题解决的综合品质的考察。总之,“第三届中国基础教育质量监测与评价学术年会暨博士生论坛”为各位专家学者打开了基于核心素养测评的大门,引领中国的基础教育质量监测走向新的征程。