ChatGPT让美国的教育成绩单变得无关紧要了吗?

热点资讯 编辑:admin 日期:2025-02-07 07:20:04 1人浏览

  

  ChatGPT让美国的教育成绩单变得无关紧要了吗?

  国家报告卡,也被称为国家教育进步评估(NAEP),是美国学生能力的标准化测试,自1969年以来一直由美国教育委员会管理。该测试被广泛引用为衡量学生阅读、写作、数学、理解科学实验和许多其他领域能力的基准。

  去年的测试给教师、行政人员和家长们带来了一个严峻的信息:青少年的数学成绩出现了自测试开始以来的最大跌幅,而数学和阅读成绩总体上呈下降趋势。

  与此同时,生成式人工智能(AI)也在兴起,比如OpenAI的ChatGPT。显然,很多人都在问这两者之间是否有联系。

  乔治亚大学的翟晓明及其AI4STEM教育中心和阿拉巴马大学教育学院的同事本周在arXiv预印服务器上发表的一篇论文《生成式人工智能和ChatGPT能否在科学中要求认知的问题解决任务上超越人类?》中写道:“ChatGPT和GPT-4的表现一直优于NAEP科学评估中回答每个单独问题的大多数学生?”

  翟志刚和他的团队表示,该报告是“第一项专注于比较GAI和K-12学生在解决科学问题方面的研究”。

  在过去的一年里,有大量的研究表明,ChatGPT可以“在实践和转移问题上与人类的表现相匹配,与人类样本中最可能的结果相一致”,他们写道,这“强调了ChatGPT反映人类受试者平均成功率的能力,从而展示了它在认知任务上的熟练程度。”

  作者为ChatGPT和GPT-4构建了一个NAEP考试,通过选择33个科学问题的选择题,以及4个指定为“选择答案”的问题,考生在阅读一篇文章后从列表中选择合适的答案。有三个问题呈现一个场景,有一系列相互关联的问题;还有11个“构造反应”问题和3个“扩展构造反应”问题,在这些问题中,考生必须写一个回答,而不是从提供的回答中选择。

  一个科学问题的例子可能涉及一个想象的场景,一根橡皮筋被拉在两根钉子之间,要求学生清楚地说出为什么它在被拨动时会发出声音,以及什么会使声音达到更高的音调。这个问题要求学生写一篇关于橡皮筋引起的空气振动的回答,以及不断增加的张力如何提高振动的音高。

  这些问题都是针对4年级、8年级和12年级的。ChatGPT和GPT-4的输出与人类考生的匿名回答进行了比较,平均而言,这些回答是由教育部提供给作者的。

  ChatGPT和GPT-4回答问题的准确性“高于中位数”——事实上,在许多测试中,与这两个程序相比,人类学生的得分非常低。在4年级、8年级和12年级的问题上,ChatGPT的得分分别高于83%、70%和81%的学生,GPT-4的得分也类似,分别高于74%、71%和81%。

  作者对正在发生的事情有一个理论,它明确地指出了标准化测试所造成的那种折磨。人类学生最终就像约翰·亨利试图与蒸汽动力凿岩机竞争的著名故事一样。

  作者借鉴了心理学中一个被称为“认知负荷”的框架,该框架衡量的是一项任务对人脑工作记忆的挑战程度,人脑是短期储存资源的地方。与计算机的DRAM类似,短期存储器的容量是有限的,当需要处理新的信息时,短期存储器中的信息就会被刷新。

  “科学教育中的认知负荷讨论了学生处理和理解科学知识和概念所需的心理努力,”作者说。具体来说,工作记忆可能会被测试的各个方面所消耗,这些方面“都在争夺这些有限的工作记忆资源”,比如试图同时记住一个测试问题的所有变量。

  作者强调,机器在DRAM中保存变量的能力更强,ChatGPT和GPT-4可以——通过它们不同的神经权重和输入提示符的明确上下文——存储更多的输入。

  当作者观察每个学生的能力与问题的复杂性之间的关系时,这个问题就到了紧要关头。一般学生会因为题目越来越难而陷入困境,但ChatGPT和GPT-4不会。

  “对于三个年级的每一个年级,NAEP科学评估中学生的平均能力分数都要求更高,认知需求也会增加。然而,除了最低的4年级,ChatGPT和GPT-4的表现可能不会对相同的条件产生显著影响。”

  换句话说:“他们对认知需求缺乏敏感性,这表明‘GAI有潜力克服人类在使用问题所需的高阶思维时所遭受的工作记忆。”

  作者认为,生成式人工智能克服人类工作记忆限制的能力“对教育范式内评估实践的演变具有重大意义”,并且“教育工作者必须彻底改革传统的评估实践”。

  他们指出,生成式人工智能在学生的生活中“无处不在”,因此人类学生将使用这些工具,并在NAEP等标准化测试中被这些工具超越。

  翟及其团队写道:“鉴于GAI对认知负荷的不敏感,以及它作为学生未来职业发展工具的潜在作用,重新校准教育评估变得至关重要。”

  他们建议:“这些评估的重点应该从仅仅衡量认知强度转向更加强调创造力和知识在新环境中的应用。”

  “这种转变认识到,在一个日益受到先进GAI技术影响的环境中,创新思维和解决问题的能力日益重要。”

  他们指出,教师们“目前还没有准备好”应对教学法的“重大转变”。这种转变意味着教育机构需要关注教师的专业发展。

  这项研究的一个有趣的注脚是这两个程序的局限性。在某些情况下,一个程序或另一个程序要求提供科学问题的额外信息。当其中一个程序询问,而另一个程序没有询问时,“没有要求额外信息的模型通常会产生令人不满意的答案。”这意味着,作者总结道,“这些模型严重依赖于所提供的信息来产生准确的反应。”

  机器依赖于提示或模型的学习参数。这一差距为人类开辟了一条道路,也许,在两种资源都不包含解决问题活动所需的洞察力的情况下,人类就会出类拔萃。

分享到

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。