理解人工智能和学习成果的新工具-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://openai.com/index/understanding-ai-and-learning-outcomes

原文作者：OpenAI

教育是人工智能最具潜力的领域之一。借助ChatGPT等工具，任何学生，无论身处何地，都可以随时获得个性化的学习支持。

然而，教育领域对于AI对学习成果的影响的理解仍处于早期阶段。去年，我们的团队着手研究study mode等工具的使用情况，发现了学生表现的显著提升。但我们的研究也提出了一个重要问题：我们如何评估AI随着时间的推移对学习者进度的影响，而不仅仅是期末考试成绩？

这是一个更广泛的生态系统挑战。迄今为止，大多数研究方法都侧重于狭窄的表现指标（如考试分数），而缺乏评估学生在真实环境中如何通过AI进行学习，以及这种使用如何随着时间塑造学习成果的能力。

为了解决这一差距，我们开发了学习成果测量套件（Learning Outcomes Measurement Suite），这是一个与爱沙尼亚塔尔图大学（University of Tartu）和斯坦福大学学习加速器（SCALE Initiative at the Stanford Accelerator for Learning）合作创建的框架，旨在支持跨不同教育背景的学习成果的纵向测量。

目前，我们正通过一项随机对照试验进行广泛的验证，并计划与Learning Lab（OpenAI的学习研究生态系统）的创始组织进行进一步研究，包括来自亚利桑那州立大学、伦敦大学学院知识实验室（UCL Knowledge Lab）和麻省理工学院媒体实验室（MIT Media Lab）的研究人员（基于此前的合作研究）。

今天，我们将概述该测量套件的工作原理及其重要性。随着时间的推移，我们打算发布更多的研究成果，并将该测量套件作为一项公共资源提供给全球的学校、大学和教育系统。

“这项研究使我们能够快速学习，同时为更深入地理解AI如何被有意义地融入学校打下基础。我们希望了解这些工具如何在支持严谨的学术学习的同时，培养更高层次的思维、创造力、好奇心以及学生作为学习者的自信心。”

– Susanna Loeb，斯坦福大学教育学教授兼SCALE倡议主任

要点总结

今天关于AI对学习影响的研究方法显示出有希望的表现信号，但未能全面捕捉AI随时间对学习成果影响的全貌。
学习成果测量套件将首次提供一个标准的纵向研究框架，帮助教育工作者、研究人员和机构了解AI如何在不同背景下塑造学习和成果。
OpenAI的Learning Lab是一个专注于推进这项工作的新研究生态系统。随着该领域的不断发展，OpenAI将与众多合作伙伴一起发布研究成果。

起源与早期研究

学生在使用AI工具进行学习时，可能意味着多种不同的方式——从为了快速获得答案而求助于AI，到利用AI进行类似辅导式的循序渐进的问题解决。为了鼓励用户以支持更深入理解和技能培养的方式与ChatGPT互动，OpenAI去年推出了study mode。在幕后，study mode由我们与教师、科学家和教学专家合作编写的自定义系统指令驱动，以反映支持真正学习而非仅仅获取答案的核心行为——包括脚手架、理解检查和引导式练习。

为了测试这种符合教学法的AI互动方式是否能转化为更好的学习成果，我们与300多名准备神经科学和微观经济学考试的大学生进行了一项随机研究。虽然分析仍在进行中，但早期结果让我们有信心，符合教学法的AI互动方式，通过study mode等功能得到鼓励，可以改善学习成果。但这项研究也揭示了一个重要的现实：真正重要的是，这些进步和相关的积极行为是否能够持久。

研究设计

参与者被分为三组：对照组使用传统的在线资源学习，如谷歌搜索和YouTube，并禁用了AI生成的概览功能；另外两组则可以访问两种study mode变体，这两种变体以略微不同的方式引导学生完成学习过程。在研究开始前收集了基线测验和入门调查，以调整因先修课程接触程度、学习习惯、学业自信心和AI工具熟悉度差异带来的影响。学生在每次考试前完成了限时study mode课程，两种study mode变体在不同科目之间进行了平衡。

这种设置旨在反映真实的学习条件，而非严格控制的实验室环境。参与不与考试成绩挂钩，并非所有学生在名义上为40分钟的课程中都以相同的程度使用了study mode。这使得我们能够测量并报告意向性治疗（ITT）效应，即在现实推广条件下提供工具访问的影响——换句话说，提供study mode的因果影响，同时承认实际参与度可能有所不同。

研究结果

我们分别测量了每项考试的表现。在我们的随机研究中，不同学科的改进并不均匀，并且study mode的使用程度因参与者而异。

神经科学（主要ITT）：我们观察到study mode相对于对照组有方向性上的积极差异，但结果与使用传统在线资源学习的学生没有区别。一些入门和技术问题影响了使用study mode的学生在学习上花费的时间。
微观经济学（主要ITT）：我们观察到与无AI对照组相比，获得study mode访问权限的学生在考试成绩上取得了有意义的提升——分数相对提高了约15%。

Study mode (variants A & B) vs Control (no AI group): Adjusted mean exam scores

研究的局限性

虽然这反映了现实世界的差异，但它凸显了学习成果衡量方式的一个更深层局限性。

大多数现有的评估方法依赖于在短时间窗口内评估固定的干预措施，使用考试分数或最终论文等成果作为主要信号。这些方法并非旨在捕捉AI在实践中影响学习的核心机制：持续的、个性化的互动，这些互动会随着学习者自身的策略、偏好和学习习惯而发展。它们也无法揭示在一项能力（如短期记忆）上的改进是否会伴随着其他能力（如坚持性、自主动机或创造性问题解决）的权衡。因此，它们错过了最终决定AI是否能切实改善学习的纵向认知效应。

由于不同国家、课程和机构目标之间的学习环境差异很大，一次性研究的成果很少能推广到其他系统。因此，测量方法必须足够灵活，以便不同的教育系统能够根据自身背景定义成功，根据自身标准评估AI，并进行相应的迭代。

构建更好的测量系统

基于OpenAI study mode研究的经验，我们一直在构建一个结构化的测量系统，以大规模衡量AI对学习者的影响，并创建一个基于这些成果改进模型的机制。它基于三个信号——模型的行为方式、学习者的反应方式以及随时间产生的可衡量认知结果。它包括：

系统指令以优化模型行为：使用自然语言来改变模型的默认行为，使其更好地符合特定的教学方法。
学习互动分类器：自动检测真实、去识别化的学习者-模型互动中的“学习时刻”，并标记关键特征，如参与度和错误纠正。
学习质量评分器：评估每个学习时刻，判断学习者是否实现了目标，以及互动在多大程度上遵循了强大的教学原则，包括识别失败模式。
纵向学习评分器：跟踪同一学习者随时间与模型互动变化的趋势——包括参与度、坚持性和元认知策略——在个人和群体层面。
标准化的认知和元认知测量：这些是经过验证的第三方工具，通过ChatGPT在访问前/中/后交付，以建立基线并测量关键能力（如批判性思维、创造力和记忆力）的变化。

当这些结合在一起时，我们称之为学习成果测量套件。

它产生教育生态系统可以使用的重要信号：结构化的学习时刻视图、显示群体成果随时间变化的仪表板、模型在教学和辅导评分标准下的表现指标，以及与标准化评估和简短学习者问卷相匹配的成果测量。在可用时，它可以整合合作伙伴提供的真实数据，如考试成绩、课堂观察或出勤率。

Diagram illustrating a learning outcomes measurement workflow where AI processes data through analysis, evaluation, and verification steps before delivering insights to support a learner.

所有数据均已去识别化

它还使我们的合作伙伴能够了解AI在学习中的更深层认知影响，通过该系统我们还可以追踪对以下能力的影响：

自主动机：学习者指导自己的学习与被模型指导的程度。
生产性参与：教学互动的频率、多样性和质量。
任务坚持性：学习者面对和克服认知挑战的程度。
元认知：学习者规划、反思和监控学习方法努力的频率和质量。
记忆力：学习者回忆先前互动内容的准确性。

这反映了我们不懈努力，不仅关注狭窄的学习成果定义（考试分数提高），还关注支撑学习的整体能力。它还反映了我们的信念：在要优化的目标方面，不会有万能的解决方案：系统和教育工作者需要有能力根据教学最佳实践和方法进行权衡。

未来的方向

在将学习成果测量套件广泛推广之前，我们正在通过大规模研究对其进行验证。这项工作正与塔尔图大学和斯坦福大学SCALE倡议在爱沙尼亚等国家级合作伙伴一起进行，该测量套件正在对近20,000名16-18岁的学生进行为期数月的持续研究。学生的使用将与当地领导人密切合作，以确保安全并与当地课程保持一致。

“爱沙尼亚始终将教育视为一个不断改进的系统，而非一成不变。随着AI成为这个体系的一部分，关键问题是如何衡量AI对学习的长期影响。这正是我们与OpenAI合作正在探索的。学生们热衷于参与开发过程，许多人希望学习如何利用AI来支持学习。这感觉像是一个真正的转折点，我们很乐意贡献其他教育系统可以复用和在此基础上发展的教学方法。”

– Jaan Aru，塔尔图大学计算机科学研究所副教授

这项工作建立在一系列更广泛的合作研究之上。除了由Learning Lab创始合作伙伴进行的研究外，OpenAI还支持学习与劳动力交叉领域的研究——考察AI如何影响学生的学术路径、职业决策以及机构如何支持负责任的采用。这项研究正在博科尼大学（Bocconi University）、Innova Schools and Tuck School of Business at Dartmouth、圣地亚哥州立大学（San Diego State University）、石溪大学（Stony Brook University）等地进行。

随着我们对学生如何最好地利用AI学习进行更长期的研究，我们打算分享研究成果，并与更广泛的教育生态系统合作，以确保AI惠及世界各地的学习者。

有兴趣接收此项工作更新的人士，可以在此处注册。

翻译反馈

您所在语言的页面效果如何？