赵勇 | AI时代的教育与评价

发表日期: 2024-05-13

AI时代已不是遥远的未来,而是我们所身处的当下这个时代。教育与评价需要顺应时代潮流而变,既面临挑战,也充满机遇。身处AI时代,我们需要重新思考教育与评价的内涵、形式和特征,同时也要深入思考人与AI的关系,并进一步思考AI时代是否以及如何能够实现教育公平和个人成长。

一、AI时代教育与评价所面临的挑战与机遇


AI的快速发展给传统教育模式和教育理念带来了巨大的影响和挑战,这牵涉到我们的下一代将如何生活的问题。我们首先要考虑AI诞生和发展的大背景,在人类生存的大环境下来思考全球教育形势。首先,人类经历了新冠疫情,这给教育带来了巨大的冲击,冲击有好的一面,也有坏的一面。比如,疫情迫使教育开始更多采用远程方式,现在在线学习已经成为一种常态,这就会改变师生关系、改变教师和学校的关系,等等。这是一个重大变化,而我们目前对疫情影响的反思其实还远远不够。其次,在疫情之外还有战争的影响。战争和冲突迫使人们选边站队和形成对立,对教育的影响也非常大。战争导致国际局势急剧变化,比如现在出国求学可能会更经常遇到签证被拒的情况,所以全球形势变化也是我们在教育中必须考虑的一个问题。最后,对于当前教育模式和效果的反思。教育经过这么多年的发展似乎没有变得更好,反而情况似乎越来越差。回顾二十多年的PISA测试,可以看到全球的教育质量都在变差,见图1。不仅教育质量越来越差,教育所面临的其他问题也越来越严重,比如青少年自杀和抑郁的问题等,孩子们的身心变化也是我们需要特别考虑的。


图片


全球教育这些年似乎都没有向好的方向变化。我们期望教育公平能够缩小贫富差距,但仍没有实现。以前芬兰教育一直为人称道,但这些年也越来越差,2022年刚出来的PISA数据能够说明这一点。同样,英国和美国的教育也在变差。自20世纪70年代以来,美国国家教育进步评估(National Assessment of Educational Progress, NAEP)一直在监测美国9岁、13岁和17岁学生的学业表现,这种评估被称为长期趋势评估(longterm trend, LTT)。NAEP公布的2022—2023学年LTT数据显示,美国学生的阅读和数学学业表现50年以来基本上没有发生真正有意义的变化[2]。因此,我们需要思考教育究竟出了什么问题?是不是传统的考试已经无法呈现学生的变化、抓不住教育在AI时代的演变?我们的孩子所学习的知识和技能应该比以前更多了,但却无法测试出来,那是不是说明按照传统的教育模式已经不能提高教育质量?这都是需要我们认认真真思考的一些重要问题。


AI对现有的教育测评是赋能还是摧毁,结论尚未可知。有一项研究让ChatGPT3.5去解答美国最重要的一项考试的试题,结果ChatGPT在任何一门考试中都能够超越80%的学生,也许再过几年可以达到100%的水平。这需要我们思考传统的考试本身是不是还有存在的价值和意义。现在美国有许多大学已经不再看重SAT、ACT、GRE等考试成绩,因为这些考试本身已经不再具备对学生未来发展的预测性。


AI对许多行业的冲击都非常大。2017年,Brookings Institution进行了一项研究,将美国专利库中AI相关专利与美国劳工部的数据进行对比,来预测AI会冲击哪些行业。结论是目前高工资、需要高学历的行业会受到最大冲击,如会计、律师、编辑、程序员等,因为AI可以极大降低这些行业所需要的人力成本[3]。而对高中以下学历就可从事的行业,比如网约车司机,AI暂时还没有冲击到,毕竟全自动驾驶还没有完全应用。


AI带来的另一把双刃剑是让人们的休闲时间大大增加了。现在美国以及欧洲很多国家已经开始试行一周工作4天,美国已有约六七千所中小学一周只上4天课[4]。传统教育模式是培养人的劳动技能,但在AI时代工作效率大大提高,我们就需要开始考虑如何休闲以及如何让自己的闲暇时间有价值的问题,这就涉及如何培养孩子成为一个健康、生活有意义的人,而不仅仅是一个只会劳动的人。简而言之,今后的教育一是要思考如何培养人成为有价值的人,从而不被AI所取代;二是要思考如何在AI时代培养人成为一个能够进行有意义休闲的人,将这两点汇聚到一起来思考我们的教育应该向哪个方向发展。

二、AI时代教育与评价的内涵及形式


考试属于教育的一个组成部分,所以我们要进一步思考AI时代需要什么样的考试。2003年笔者代表美国教育部参加APEC会议,讨论中发现一个很有趣的现象。当时跨国测试比较刚刚兴起,西方国家如美国、澳大利亚、新西兰等,特别看重东亚国家如中国、韩国、日本、新加坡等的教育模式,因为这些国家在PISA、TIMSS等跨国测试中得分很高,所以他们认为东亚国家的教育体制远超西方,应当向东亚学习进行教育改革。而东亚国家则非常崇拜美国和澳大利亚等西方国家的教育体系,许多家长争相送孩子去西方留学。于是我们就此专门主办了一个APEC国家之间教育改革的讨论会,讨论结果是将东西方特点结合,创办新型教育。但其实这也存在很大的问题,比如英国后来从上海引进过数学教法和教师,经过试验发现效果并不理想。笔者据此针对美国的教育政策写过一本书,其中指出美国教育的考试结果很差并不是一件新鲜事,美国实际上是一个长期考不好的国家。但如果教育是一个国家根基的话,教育如此之差的美国为什么还能够存在且很有竞争力?这些国际测试之中一批没有被公开的数据可能能够给出答案。这批没有被公开的数据主要是学生的自我测评数据,虽然东亚国家的学生考试分数永远高于美国等西方国家,但自我测评得分很低。自我测评包括学生对某个学科是否有信心、是否认为这个学科有价值、是否喜欢这个学科,等等。1995年的TIMSS数据显示,中国香港、日本、韩国和新加坡的学生虽然数学成绩比澳大利亚、英国、美国的学生高出很多,但对数学学科有信心的人数分别仅为5%、4%、6%和11%;而澳大利亚、英国和美国对数学有信心的学生则分别为20%、24%和34%。简而言之,信心、对学科的享受程度和考试分数是成反比关系的。一个国家或者地区考试分数越高,学生越没有信心而且越不喜欢那个考试科目[5]。我们现在提倡大众创业、万众创新,但是许多大学的创业教育没有取得明显效果,这也跟信心有很大的关系。笔者在另一本书中比较过世界各国成人对自己的创业能力和信心的评估,结果发现各个国家PISA测试的阅读、数学、科学的得分,与自我认同的创业能力以及创造力的演变都呈现负相关[6]。因此,我们必须要重新思考,我们的考试考的是否是对一个国家的经济发展、对人民的生活提高真正有关系的事情?我们考核的是否是真正有价值的内容?


笔者刚才谈的一部分内容还是在AI出现之前的情况,AI时代我们还需要思考,当前教育考试所考查的能力是否代表未来真正需要的能力?对于未来真正需要的能力,我们要考虑两个问题:一是究竟应该培养和测评什么能力的问题;二是如何通过教育培养这些能力的问题。


以创造力的测评为例,20世纪50年代美国开始了最早的发散性思维测试(divergent thinking test),其中最著名的测试之一是托兰斯创造性思维测验(Torrance Tests of Creative Thinking, TTCT)。理论上讲,当年被测试出具有更多创造力的孩子,这一生的创造也应该更多,但几十年后通过元分析来对比相关数据,发现创造力测试与人们多年后是否能够有所创造并没有真正的关系,因此许多学者对发散性思维是否能代表创造力产生怀疑,甚至对创造力是否存在都提出了质疑[7]。改为测评创造出来的成果,比如让孩子画一幅画来描述一样东西,再邀请专家来判断这个作品。听起来好像很有道理,但经过很多对创造力的研究之后发现这样测试也存在问题,比如最具备创造力的作品很可能争议最大,很难评判。再之后转为测评创造力的信心,但发现有效性也存疑,因为即使一个人对自己的创造力具备信心、敢于创造,但如果身处的场景限制,可能也就无法创造了。因此,一部分进行创造力研究的学者认为创造力作为一种通用思维能力可能并不存在,因为创造力是个体的能力、个体的动机与环境交互的结果,而不能够以某个单一的因素来进行评判[8]。再比如合作能力也是一样,假设一个人跟别人合作创作音乐,他自己编写曲子,但还需要创作歌词的人、演唱的人以及一个好乐队,只有将这些因素整合起来,这个人的创造力与合作能力才能得到真正的发挥。


在20世纪80年代,哈佛大学心理学家和教育学家Howard Gardner提出多元智能理论,现在已不是一个新的概念[9-10]。他提出这个概念的时候有不少人反对,其实笔者也不完全同意Gardner将人类的智能仅归为八大类型。人的多元智能应该是一种概念,而不是归类,比如一个人在音乐方面有天赋,可以是跳舞、古典音乐或者现代音乐,不同的音乐有不同的概念,不能简单归为一类。然而,“多元”是一个非常重要的核心概念,简单来说就是每个人的聪明分布在不同方面,每个人的天赋和发展方向不应该也不可能完全一致。如果每个人具备不同的天赋,那么同样的考试、同样的教育经历又怎么能让每个人在自己擅长的领域发展呢?比如我们以前常说“学好数理化,走遍天下都不怕”,要求每个孩子都学好数理化,但这是不可能实现的。这样的要求强迫很多在数学方面没有天赋的人去学习数学,效果只会适得其反。


心理学中有一个“一万小时定律”,指的是如果要学好一样东西,必须付出一定数量的时间和精力。美国中小学一共12年的学习时间,大概是12000小时,如果这些时间学生都用来弥补自己的短处,最终能达到什么水平?反之,如果这些时间学生能够全部用来发挥自己的长处,又能达到什么水平?在AI时代,任何一种才能都可能有用,但任何一种才能都必须达到极致,这就要求学生必须选择自己的发展方向。


除了智能之外,人还有性格差异,这是天生的。此外,还有个体追求的不同。美国心理学家Steven Reiss将驱动人类行为的内在动机分为16种类型[11-12],指出每个人追求的东西都是不一样的,比如有些人追求的是权力,有些人追求的是兴趣和知识。一个人也有可能80%追求权力,20%追求知识。同时,还有家庭的差异,比如说一个人有数学天赋,父母又正好从事数学研究,那这个人的发展可能就会非常顺利。反之,如果一个人天赋很高,但是家庭无法给予很多支持,也许发展之路就不会很顺利。


考虑到这些差异,教育就应该尽量顺其自然。然而,传统教育非但没有顺其自然,应试模式下设置的课程、核心素养、考试和选拔机制,还造成了“千军万马过独木桥”的现象。过了“独木桥”的学生,就会得到一份高学历作为“奖励”,但高学历并不能够代表一个人的能力。美国现在的用人招聘越来越不看重学历,明尼苏达州刚通过一项法律,规定有70%的工作岗位,雇主不能将毕业证书作为招聘的必需条件。以传统考试的方式来判断一个人的能力,在AI时代已不可行。


此外,AI时代还需要我们重新考虑课程设置以及课程标准等问题。疫情结束后,笔者写了一本书,叫做《没有边界的学习者》(Learners Without Borders),其中就涉及AI对课程的影响[13]。追求课程统一、课程标准有一定的道理。人类身处社会之中,需要通过教育传承社会文化和价值观,教人遵守社会的法律,但我们不能把12年的基础教育全部花费于此。因此,笔者在书中提出,是否可以考虑按照“3-3-4”的概念来分配学习的时间。比如,每个人用30%的时间来学习统一的课程,用30%的时间来学习地方性的课程,余下40%的时间按照个人的优势、兴趣、性格、追求来安排学习。


AI对教育带来的另一大冲击是跨学科。传统教育以学科为主,而AI时代的教育是没有学科之分的。其实学科是一种含混的概念,是人为划分的,以学科为主的传统教育是强行把知识细分。而利用AI学习则不需要划分学科,比如通过AI学习法国巴黎公社对社会的影响,可以说对科学的影响、对服装的影响、对历史的影响、对政体的影响等,是融会贯通在一起的,这样更有助于学习和理解。如果还是按照传统的教育模式来看待AI,比如认为历史教师可以用AI教历史,化学教师可以用AI教化学,其实是用旧方式理解一个新时代。


与此相应,AI时代也对教师提出新的要求。传统的教师教育强调三大方面,即教学内容、教学方法、课堂管理,而AI时代的教师角色定位开始向人力咨询师、学习资料的构建者和情绪调节师转变。在传统课堂中,一位教师教四五十个学生,但其实只能照顾到中间那一部分学生,而照顾不到最好和最差的两端的学生,无法实现个性化学习;而AI使个性化学习有了切实可行的工具与实现方式。如何让每一个学生和AI成为共生与共同演化(co-evolution)的学习伙伴,是目前美国教育界讨论最多的问题。比如,学生不仅可以向AI提问,也可以让AI向自己提问。笔者做过这样的试验,要求ChatGPT只能以问题回答问题,而且对象是13岁的学生,还必须使用中英双语。事实证明,这些ChatGPT都能做到,这样的学习伙伴不是比一个成人教师还强吗?而且AI还不会批评或者嘲笑你,这样的学习伙伴谁不喜欢呢?!

三、AI时代教育的三个基本特征


早在2012年,笔者就在World Class Learners这本书中提到,21世纪的教育需要产生重大的教育范式的转变,并探讨了未来的人才培养需求[6]。笔者在书中提出了创造教育和创业教育两个概念,分别使用了creative和entrepreneurial这两个词来进行描述,即具备创新能力的人和具备创业精神的人。笔者认为这也是AI时代的教育与评价所应具备的基本特征。之后笔者在另一本书Reach for Greatness: Personalizable Education for All Children中又提出“可个性化学习”的概念,即让学生来塑造自己的学习机会和学习方法,让每个学生根据自己的兴趣、爱好和背景,通过AI、通过教师构建自己的学习模式[14]。不过,其中还牵涉几个问题:第一是教师工作量计算的问题;第二,也是更重要的,是测评的问题,即如何评估一个学生的进步?


家长总想知道分数,是因为传统考试中很重要的一个因素是比较。哈佛大学进化论科学家Stephen Jay Gould出版过一本书叫《人类的误测》(The Mismeasure of Man)。他在书中批评道,人类对评价别人有一种强烈的冲动,总是要比较孰优孰劣[15]。所以,我们特别喜欢排名,大学要有排名,人要有排名,奖项也要分为一等奖、二等奖、三等奖。但是到了AI时代,我们需要评价的是个体,这没有办法跟别人比较。因此,我们需要思考在新的可个性化学习情况下如何进行测评。


测评一方面是学校、家长想知道孩子是否在进步;另一方面,测评还要促进孩子的学习。那什么叫进步?什么叫学习?笔者也还在思考,在这里跟大家一起探讨。笔者的另一本书Counting What Counts,探讨的就是如何测量有价值的能力[16]。我们提出了许多21世纪需要具备的能力,但却还没有很好的测量工具。比如现在盛行的合作学习(collaborative learning),因为21世纪一个重要的技能是合作,所以很多学校在教学生怎么合作,那么如何测试学生的合作能力?大概10年前墨尔本大学的一个测评中心,在微软的资助下,试图通过编制一个电子游戏来测试合作能力。虽然最后创造出来一个模型,但基本上还是失败了。为什么合作能力无法通过这种方式测试出来?因为合作不是只有一种方式。后来笔者提出合作能力应该演变成社会智能(social intelligence),是对个体的一个判断,而不是简单的两人或多人合作。现在许多学校实行的合作教学其实价值不大,最后经常演变成好学生多做、差学生不做的情况,这不是真正的合作。真正的合作本质是一种价值判断——谁对我有帮助,我对谁有帮助。


综合之前的研究与经验,笔者后来又在创新创业教育概念的基础上提出一种新的教育理念,称为“三创教育”,即创新教育、创造教育和创业教育(Innovation, Creativity, and Entrepreneurship Education, ICEE)。其基本特征包括可个性化的学习、发现并解决真实问题或产品导向的学习、全球化的学习环境等[17]


第一个特征是可个性化学习。前面已提到过,我们作为教师、校长、教育从业者,要想到每一个学习环境都是一种可个性化的环境,换言之,就是让每个学生都能够形成对自我学习有帮助的一种学习环境。举例来说,笔者曾经跟自己的一位博士研究生做过一项研究,成绩相似的学生进入同一所大学如何学习外语。我们的研究发现学生的外语能力差别很大,主要是由于每个人构建的外语学习环境不同。有些学生观看英文电影、阅读英语新闻、找英语母语者聊天,但有些学生除上英语课之外什么也不做,这实际上已经构成了不同的学习环境。这也能够解释为什么进入同一所大学、同样的专业背景出来的人能力差别那么大。其实这与自己构建的学习环境密切相关。那么如何构建自己的学习环境呢?笔者认为考试也许可以设计相关考查,比如,如何让学生判定自己身处一个好的学习环境。这也是“三创教育”的第一个特征,即学校允许学生可个性化的学习内容,如自己选择每天的课程和想学习的内容等。


第二个特征为以产品为导向的学习(product-oriented learning)。大家现在听说更多的可能是项目学习,项目学习的确比传统教育有所进步,但仍有许多不足。首先,所谓的项目基本上都由教师选定,也就相当于教师变相给学生布置作业。如果项目式学习不能够给学生预定项目,就可能背离学生的兴趣和能力。其次,项目式学习只注重过程,而不注重结果,如此一来学生就会不在乎结果。而我们要让孩子从小就关注自己所做的事情是否会对别人产生影响。教育中一直强调的一点是学会帮助别人,可个性化正是鼓励学生发挥自己的能力和优势,用以帮助别人。现代心理学中有一个分支是积极心理学,其代表性著作之一是《真实的幸福》,其中很重要的一个观点就是用自己独特的能力去帮助别人[18]。当一个人在做着对别人有价值的事情时,是绝对不会郁闷的。我们推崇的“三创教育”也很符合现代心理学,即为别人服务这个概念。马斯洛也认为人的最高层次需要是自我实现,换言之就是有能力和兴趣为别人解决问题,为别人服务。因此,我们的教育教学一定要以产品为导向。


第三个特征是全球化学习环境。在现在的AI时代,每个人做任何事情都有可能影响全球,而每个人所做的任何事情也可以被全球所影响,我们一定要牢记这一点。这是一个全球化的时代,我们的产品可以远销全球,而在我们的生活中,每天接触的东西、接收的讯息,大量来自全世界。我们要思考如何讲好中国故事,以及如何听好外国故事,这就意味着孩子们之间的全球化交流是必要的,而AI时代为我们提供了这种全球化的学习环境。如果把传统教育比作建设一座花园,我们要按照花园的设计培养某种花卉,就必然要抛弃很多其他种类的花卉。但在AI时代,教育由建设花园转变为维护一个自然生态环境,每一种植物、每一个物种在其中都有自己的价值,这是AI时代最好的一种大演变。AI时代为大家创造了更多机会,如何去抓住机会和运气也是非常重要的。


总而言之,AI时代应当是一个人机共生与共同演化(co-evolution)的时代,AI为个性化学习提供了切实的工具与实现方式,对知识的了解与掌握将不再是学习的主要目的。教育工作者需要深入思考人与AI的关系,教育评价应为每个人提供成长为更好的自己的机会。


转载:教育部评估中心  来源:《中国基础教育》