考试属于教育的一个组成部分,所以我们要进一步思考AI时代需要什么样的考试。2003年笔者代表美国教育部参加APEC会议,讨论中发现一个很有趣的现象。当时跨国测试比较刚刚兴起,西方国家如美国、澳大利亚、新西兰等,特别看重东亚国家如中国、韩国、日本、新加坡等的教育模式,因为这些国家在PISA、TIMSS等跨国测试中得分很高,所以他们认为东亚国家的教育体制远超西方,应当向东亚学习进行教育改革。而东亚国家则非常崇拜美国和澳大利亚等西方国家的教育体系,许多家长争相送孩子去西方留学。于是我们就此专门主办了一个APEC国家之间教育改革的讨论会,讨论结果是将东西方特点结合,创办新型教育。但其实这也存在很大的问题,比如英国后来从上海引进过数学教法和教师,经过试验发现效果并不理想。笔者据此针对美国的教育政策写过一本书,其中指出美国教育的考试结果很差并不是一件新鲜事,美国实际上是一个长期考不好的国家。但如果教育是一个国家根基的话,教育如此之差的美国为什么还能够存在且很有竞争力?这些国际测试之中一批没有被公开的数据可能能够给出答案。这批没有被公开的数据主要是学生的自我测评数据,虽然东亚国家的学生考试分数永远高于美国等西方国家,但自我测评得分很低。自我测评包括学生对某个学科是否有信心、是否认为这个学科有价值、是否喜欢这个学科,等等。1995年的TIMSS数据显示,中国香港、日本、韩国和新加坡的学生虽然数学成绩比澳大利亚、英国、美国的学生高出很多,但对数学学科有信心的人数分别仅为5%、4%、6%和11%;而澳大利亚、英国和美国对数学有信心的学生则分别为20%、24%和34%。简而言之,信心、对学科的享受程度和考试分数是成反比关系的。一个国家或者地区考试分数越高,学生越没有信心而且越不喜欢那个考试科目[5]。我们现在提倡大众创业、万众创新,但是许多大学的创业教育没有取得明显效果,这也跟信心有很大的关系。笔者在另一本书中比较过世界各国成人对自己的创业能力和信心的评估,结果发现各个国家PISA测试的阅读、数学、科学的得分,与自我认同的创业能力以及创造力的演变都呈现负相关[6]。因此,我们必须要重新思考,我们的考试考的是否是对一个国家的经济发展、对人民的生活提高真正有关系的事情?我们考核的是否是真正有价值的内容?
笔者刚才谈的一部分内容还是在AI出现之前的情况,AI时代我们还需要思考,当前教育考试所考查的能力是否代表未来真正需要的能力?对于未来真正需要的能力,我们要考虑两个问题:一是究竟应该培养和测评什么能力的问题;二是如何通过教育培养这些能力的问题。
以创造力的测评为例,20世纪50年代美国开始了最早的发散性思维测试(divergent thinking test),其中最著名的测试之一是托兰斯创造性思维测验(Torrance Tests of Creative Thinking, TTCT)。理论上讲,当年被测试出具有更多创造力的孩子,这一生的创造也应该更多,但几十年后通过元分析来对比相关数据,发现创造力测试与人们多年后是否能够有所创造并没有真正的关系,因此许多学者对发散性思维是否能代表创造力产生怀疑,甚至对创造力是否存在都提出了质疑[7]。改为测评创造出来的成果,比如让孩子画一幅画来描述一样东西,再邀请专家来判断这个作品。听起来好像很有道理,但经过很多对创造力的研究之后发现这样测试也存在问题,比如最具备创造力的作品很可能争议最大,很难评判。再之后转为测评创造力的信心,但发现有效性也存疑,因为即使一个人对自己的创造力具备信心、敢于创造,但如果身处的场景限制,可能也就无法创造了。因此,一部分进行创造力研究的学者认为创造力作为一种通用思维能力可能并不存在,因为创造力是个体的能力、个体的动机与环境交互的结果,而不能够以某个单一的因素来进行评判[8]。再比如合作能力也是一样,假设一个人跟别人合作创作音乐,他自己编写曲子,但还需要创作歌词的人、演唱的人以及一个好乐队,只有将这些因素整合起来,这个人的创造力与合作能力才能得到真正的发挥。
在20世纪80年代,哈佛大学心理学家和教育学家Howard Gardner提出多元智能理论,现在已不是一个新的概念[9-10]。他提出这个概念的时候有不少人反对,其实笔者也不完全同意Gardner将人类的智能仅归为八大类型。人的多元智能应该是一种概念,而不是归类,比如一个人在音乐方面有天赋,可以是跳舞、古典音乐或者现代音乐,不同的音乐有不同的概念,不能简单归为一类。然而,“多元”是一个非常重要的核心概念,简单来说就是每个人的聪明分布在不同方面,每个人的天赋和发展方向不应该也不可能完全一致。如果每个人具备不同的天赋,那么同样的考试、同样的教育经历又怎么能让每个人在自己擅长的领域发展呢?比如我们以前常说“学好数理化,走遍天下都不怕”,要求每个孩子都学好数理化,但这是不可能实现的。这样的要求强迫很多在数学方面没有天赋的人去学习数学,效果只会适得其反。
心理学中有一个“一万小时定律”,指的是如果要学好一样东西,必须付出一定数量的时间和精力。美国中小学一共12年的学习时间,大概是12000小时,如果这些时间学生都用来弥补自己的短处,最终能达到什么水平?反之,如果这些时间学生能够全部用来发挥自己的长处,又能达到什么水平?在AI时代,任何一种才能都可能有用,但任何一种才能都必须达到极致,这就要求学生必须选择自己的发展方向。
除了智能之外,人还有性格差异,这是天生的。此外,还有个体追求的不同。美国心理学家Steven Reiss将驱动人类行为的内在动机分为16种类型[11-12],指出每个人追求的东西都是不一样的,比如有些人追求的是权力,有些人追求的是兴趣和知识。一个人也有可能80%追求权力,20%追求知识。同时,还有家庭的差异,比如说一个人有数学天赋,父母又正好从事数学研究,那这个人的发展可能就会非常顺利。反之,如果一个人天赋很高,但是家庭无法给予很多支持,也许发展之路就不会很顺利。
考虑到这些差异,教育就应该尽量顺其自然。然而,传统教育非但没有顺其自然,应试模式下设置的课程、核心素养、考试和选拔机制,还造成了“千军万马过独木桥”的现象。过了“独木桥”的学生,就会得到一份高学历作为“奖励”,但高学历并不能够代表一个人的能力。美国现在的用人招聘越来越不看重学历,明尼苏达州刚通过一项法律,规定有70%的工作岗位,雇主不能将毕业证书作为招聘的必需条件。以传统考试的方式来判断一个人的能力,在AI时代已不可行。
此外,AI时代还需要我们重新考虑课程设置以及课程标准等问题。疫情结束后,笔者写了一本书,叫做《没有边界的学习者》(Learners Without Borders),其中就涉及AI对课程的影响[13]。追求课程统一、课程标准有一定的道理。人类身处社会之中,需要通过教育传承社会文化和价值观,教人遵守社会的法律,但我们不能把12年的基础教育全部花费于此。因此,笔者在书中提出,是否可以考虑按照“3-3-4”的概念来分配学习的时间。比如,每个人用30%的时间来学习统一的课程,用30%的时间来学习地方性的课程,余下40%的时间按照个人的优势、兴趣、性格、追求来安排学习。
AI对教育带来的另一大冲击是跨学科。传统教育以学科为主,而AI时代的教育是没有学科之分的。其实学科是一种含混的概念,是人为划分的,以学科为主的传统教育是强行把知识细分。而利用AI学习则不需要划分学科,比如通过AI学习法国巴黎公社对社会的影响,可以说对科学的影响、对服装的影响、对历史的影响、对政体的影响等,是融会贯通在一起的,这样更有助于学习和理解。如果还是按照传统的教育模式来看待AI,比如认为历史教师可以用AI教历史,化学教师可以用AI教化学,其实是用旧方式理解一个新时代。
与此相应,AI时代也对教师提出新的要求。传统的教师教育强调三大方面,即教学内容、教学方法、课堂管理,而AI时代的教师角色定位开始向人力咨询师、学习资料的构建者和情绪调节师转变。在传统课堂中,一位教师教四五十个学生,但其实只能照顾到中间那一部分学生,而照顾不到最好和最差的两端的学生,无法实现个性化学习;而AI使个性化学习有了切实可行的工具与实现方式。如何让每一个学生和AI成为共生与共同演化(co-evolution)的学习伙伴,是目前美国教育界讨论最多的问题。比如,学生不仅可以向AI提问,也可以让AI向自己提问。笔者做过这样的试验,要求ChatGPT只能以问题回答问题,而且对象是13岁的学生,还必须使用中英双语。事实证明,这些ChatGPT都能做到,这样的学习伙伴不是比一个成人教师还强吗?而且AI还不会批评或者嘲笑你,这样的学习伙伴谁不喜欢呢?!