📢 转载信息
原文链接:https://openai.com/index/understanding-ai-and-learning-outcomes
原文作者:OpenAI
教育是人工智能最具潜力的前沿领域之一。借助ChatGPT等工具,任何学生都可以随时随地获得个性化的学习支持。
然而,教育领域对人工智能如何影响学习成果的理解仍处于早期阶段。去年,我们的团队着手研究study mode等工具的使用情况,发现了学生成绩的显著提升。但我们的研究也提出了一个重要问题:我们如何评估人工智能在一段时间内对学习者进步的影响,而不仅仅是期末考试成绩?
这是一个更广泛的生态系统挑战。迄今为止,大多数研究方法都侧重于狭隘的表现信号,例如考试成绩,而缺乏评估学生在真实环境中如何实际利用人工智能学习,以及这种使用方式如何随时间塑造学习成果的能力。
为弥补这一差距,我们开发了Learning Outcomes Measurement Suite(学习成果衡量套件),这是一个与爱沙尼亚塔尔图大学和斯坦福加速学习倡议(SCALE Initiative)合作创建的框架,旨在支持跨不同教育情境的学习成果的纵向测量。
目前正在通过一项随机对照试验进行广泛验证,并计划与Learning Lab(OpenAI的学习研究生态系统)的创始组织进行进一步研究,其中包括来自亚利桑那州立大学、UCL知识实验室和麻省理工学院媒体实验室的研究人员(基于先前的合作研究)。
今天,我们分享了衡量套件工作原理的概述及其重要性。随着时间的推移,我们打算发布更多的研究成果,并将衡量套件作为一项公共资源提供给全球的学校、大学和教育系统。
“这项研究使我们能够快速学习,同时为深入了解人工智能如何被有意义地融入学校打下基础。我们希望了解这些工具如何支持严谨的学术学习,同时培养更高层次的思维、创造力、好奇心以及学生作为学习者的自信心。”
主要观点总结
- 今天关于人工智能对学习影响的研究方法显示出有希望的表现信号,但未能捕捉到人工智能随时间推移对学习成果的全面影响。
- Learning Outcomes Measurement Suite将首次提供一个标准化的纵向研究框架,帮助教育工作者、研究人员和机构了解人工智能如何影响不同情境下的学习和成果。
- OpenAI的Learning Lab是一个专注于推进这项工作的新研究生态系统。随着该领域的不断发展,OpenAI将与一系列合作伙伴一同发布研究成果。
起源与早期研究
当学生使用人工智能工具进行学习时,这可能意味着许多不同的事情——从向人工智能寻求快速答案,到使用它像导师一样逐步解决问题。为了鼓励用户以支持更深入理解和技能构建的方式与ChatGPT互动,OpenAI去年推出了study mode。在底层,study mode由我们与教师、科学家和教育学专家合作编写的定制系统指令提供支持,这些指令反映了一系列核心行为,这些行为支持真正的学习,而不仅仅是提供答案——包括脚手架、理解检查和引导性练习。
为了测试这种符合教育学的人工智能互动风格是否能转化为更好的学习成果,我们与300多名准备神经科学和微观经济学考试的大学生进行了一项随机研究。虽然分析仍在进行中,但早期结果让我们相信,通过study mode等功能鼓励符合教育学的人工智能互动风格,可以改善学习成果。但这项研究也揭示了一个重要的现实:真正重要的是这些收益和相关的生产性行为能否随着时间的推移而持久。
研究设计
参与者被分为三组:对照组使用传统的在线资源(如Google搜索和YouTube)进行学习,并禁用AI生成的概述功能;另外两组则可以使用两种study mode变体,这两种变体以略有不同的方式引导学生完成学习过程。在研究开始前收集了基线测验和入组调查,以调整先前课程接触、学习习惯、学术自信和熟悉AI工具的差异。学生在每次考试前完成了定时的study mode会话,两种study mode变体在不同科目之间进行了均衡。该设置旨在反映真实的学习条件,而非严格控制的实验室环境。参与不与考试成绩挂钩,并非所有学生在名义上的40分钟会话中都以相同的程度使用study mode。这使我们能够衡量和报告意向性治疗(ITT)效果,即在现实推广条件下提供工具访问的影响——换句话说,就是提供study mode的因果影响,同时承认实际参与度可能有所不同。
研究发现
我们分别衡量了每次考试的成绩。在我们进行的随机研究中,各科目的改进并不均匀,study mode的使用程度也因参与者而异。
- 神经科学(主要ITT):我们观察到study mode相对于对照组有方向性积极的差异,但结果与使用传统在线资源学习的学生没有显著区别。一些入组和技术问题影响了使用study mode的学生在学习上花费的时间。
- 微观经济学(主要ITT):我们观察到分配到study mode组的学生在考试成绩上比无AI对照组有显著提高——成绩提高了约15%。
Study mode (variants A & B) vs Control (no AI group): Adjusted mean exam scores
研究表明,当我们将每种study mode变体与对照组单独进行比较时,效果是持续的。
虽然这反映了现实世界的差异,但它凸显了学习成果衡量方式的更深层局限性。
大多数现有的评估方法依赖于在短时间内评估的固定干预措施,使用考试成绩或最终论文等结果作为主要信号。这些方法无法捕捉人工智能在实践中影响学习的核心机制:与学习者自身的策略、偏好和学习习惯同步发展的持续、个性化互动。它们也无法揭示一种能力的提高(如短期记忆)是否会伴随着其他能力的权衡,如持久性、自主动机或创造性问题解决能力。因此,它们忽略了最终决定人工智能是否能真正改善学习的纵向认知效应。
由于不同国家、课程和机构目标的学习环境差异很大,一次性研究的结果很少能在系统之间推广。因此,测量方法必须足够灵活,以便不同的教育系统能够定义其背景下的成功标准,根据自己的标准评估人工智能,并相应地进行迭代。
构建更好的测量系统
基于OpenAI study mode研究的经验,我们一直在构建一个结构化的测量系统,以大规模衡量人工智能对学习者的影响,并创建一个基于这些结果改进模型的机制。它基于三个信号:模型如何行为、学习者如何响应以及随时间推移产生哪些可衡量的认知结果。它包括:
- 系统指令以完善模型行为:使用自然语言改变模型的默认行为,使其更好地符合特定的教育学方法。
- 学习互动分类器:这些自动检测真实、去识别化的学习者-模型互动中的“学习时刻”,并标记关键特征,如参与度和错误纠正。
- 学习质量评分器:这些评估并评分每一个学习时刻,判断学习者是否实现了目标,以及互动在多大程度上遵循了扎实的教育学原则,包括识别故障模式。
- 纵向学习评分器:这些在个体和群体层面跟踪同一学习者随时间与模型互动(包括参与度、持久性和元认知策略)的变化。
- 标准化认知和元认知测量:这些是通过ChatGPT在访问前/中/后交付的经过验证的第三方工具,用于建立基线并衡量基础能力(如批判性思维、创造力和记忆力)的变化。
当这些结合在一起时,我们称之为Learning Outcomes Measurement Suite。
它产生了教育生态系统可以利用的重要信号:结构化的学习时刻视图、显示群体成果随时间变化的仪表板、模型在教学和辅导评分标准下的性能指标,以及与标准化评估和简短学习者问卷一致的成果测量。在可用时,它可以整合合作伙伴提供的真实数据,如考试成绩、课堂观察或出勤率。
所有数据均已去识别化
它还使我们的合作伙伴能够了解使用人工智能进行学习的更深层次的认知影响,通过该系统我们还可以跟踪对以下能力的影响:
- 自主动机:学习者在多大程度上在指导自己的学习,而不是被模型指导。
- 生产性参与:教育学互动的频率、多样性和质量。
- 任务持久性:学习者在面对和克服认知挑战时所表现出的程度。
- 元认知:学习者在规划、反思和监控其学习方法时所付出的努力的频率和质量。
- 记忆力:学习者能够回忆起先前互动内容的准确性。
这反映了我们不局限于狭隘的学习成果定义(考试成绩的提高),而是关注学习基础的整体能力。这也反映了我们的信念,即不存在一个万能的解决方案:系统和教育工作者需要被赋权,以根据教学最佳实践和方法来指导权衡。
未来的方向
在广泛提供Learning Outcomes Measurement Suite之前,我们正在通过大规模研究对其进行验证。这项工作正在与塔尔图大学和斯坦福大学SCALE倡议合作进行,对象是爱沙尼亚等国家级合作伙伴,目前正在对近2万名16-18岁的学生进行为期数月的衡量套件研究。学生的使用将与当地领导人密切合作,以确保安全并符合当地课程。
“爱沙尼亚始终将教育视为一个不断改进的系统,而非静态的。随着人工智能成为这个图景的一部分,关键问题是如何衡量人工智能对学习的长期影响。这正是我们与OpenAI合作正在弄清楚的。学生们热衷于参与开发过程,许多人都想学习如何利用人工智能支持学习。这感觉像是一个真正的转折点,我们很乐意贡献其他教育系统可以重复使用和扩展的方法。”
这项工作建立在更广泛的合作研究基础之上。除了通过Learning Lab的创始合作伙伴进行的研究外,OpenAI还在支持学习和劳动力交叉领域的研究——研究人工智能如何影响学生的学术途径、职业决策以及机构如何支持负责任的采纳。这项研究正在博科尼大学、Innova Schools和达特茅斯学院Tuck商学院、圣迭戈州立大学、石溪大学等机构进行。
随着我们对学生如何通过人工智能进行最佳学习进行更长期的研究,我们打算分享研究成果,并与更广泛的教育生态系统合作,以确保人工智能惠及全球学习者。
有兴趣接收此工作更新的人可以在此处注册。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区