📢 转载信息

原文链接：https://news.mit.edu/2025/smart-coach-helps-llms-switch-between-text-and-code-0717

原文作者：Adam Zewe | MIT News

面包屑导航

MIT News
This “smart coach” helps LLMs switch between text and code

“智能教练”CodeSteer：赋能大语言模型在文本与代码之间无缝切换

CodeSteer系统可以提高大语言模型在解决复杂问题（如供应链中的货物调度）时的准确性。

Adam Zewe|MIT News

发布日期:

2025年7月17日

媒体问询

媒体联系人:

Melanie Grados

邮箱: mgrados@mit.edu

电话: 617-253-1682

MIT News Office

关闭

图片说明:

CodeSteer是麻省理工学院研究人员开发的一种智能助手，它指导大型语言模型在代码和文本生成之间切换，直到它正确回答查询为止。

鸣谢:

Credit: Christine Daniloff, MIT; iStock

音频

大型语言模型（LLMs）在利用文本推理理解文档上下文并就其内容提供逻辑答案方面表现出色。然而，这些相同的LLMs在正确回答最简单的数学问题时也常常遇到困难。

文本推理通常是处理计算或算法任务时效果不佳的方法。虽然一些LLMs可以生成像Python这样的代码来处理符号查询，但模型并不总是知道何时使用代码，或者哪种代码最有效。

LLMs似乎需要一位“教练”来引导它们选择最佳技术。

这就是麻省理工学院研究人员开发的智能助手 CodeSteer 的用武之地。它引导LLM在代码和文本生成之间切换，直到查询得到正确答案。

CodeSteer本身是一个较小的LLM，它会自动生成一系列提示，以迭代地引导一个较大的LLM。它会在每轮后审查模型当前和以前的答案，并提供关于如何修复或完善该解决方案的指导，直到它认为答案是正确的为止。

研究人员发现，用CodeSteer增强更大的LLM，可以将其在符号任务（如数字相乘、玩数独和堆叠积木）上的准确率提高了30%以上。它甚至能让不太复杂的模型超越那些具有增强推理能力的更先进模型。

这项进步可以提高LLMs解决复杂问题的能力，特别是那些仅凭文本推理难以解决的任务，例如在不确定环境中为机器人生成路径或调度国际供应链中的货物。

该研究的资深作者、航空航天学（AeroAstro）副教授兼麻省理工学院信息与决策系统实验室（LIDS）首席研究员Chuchu Fan表示：“目前存在一场开发更好、更有能力的模型的竞赛，但我们采取了一种互补的方法。研究人员花费了数年时间开发出在许多领域解决问题的有效技术和工具。我们希望使LLMs能够选择正确的工具和方法，并利用他人的专业知识来增强自身能力。”

与Fan一起参与这项研究的还有LIDS研究生Yongchao Chen；AeroAstro研究生Yilun Hao；伊利诺伊大学厄巴纳-香槟分校研究生Yueying Liu；以及麻省理工学院-IBM沃森AI实验室研究科学家Yang Zhang。该研究将发表在国际机器学习会议（International Conference on Machine Learning）上。

LLM的“训练师”

如果你问一个LLM哪个数字更大，9.11还是9.9，它经常会使用文本推理给出错误的答案。但如果你让它使用代码来回答同一个问题，它可以生成并执行一个Python脚本来比较这两个数字，从而轻松解决问题。

LLMs最初是为理解和预测人类语言而训练的，即使代码更有效，它们也更倾向于使用文本来回答查询。虽然它们已经通过微调学会了生成代码，但这些模型生成的代码往往是不正确或效率低下的。

麻省理工学院的研究人员没有试图重新训练像GPT-4或Claude这样强大的LLM来提高这些能力，而是对一个更小、更轻量级的LLM进行微调，以指导更大的模型在文本和代码之间切换。微调较小的模型不会改变较大的LLM，因此不会有破坏较大模型其他能力的风险。

Chen说：“我们也受到了人类的启发。在体育运动中，教练可能不如队里的明星运动员出色，但教练仍然可以提供有益的建议来指导运动员。这种引导方法对LLMs也适用。”

这个“训练师”CodeSteer与较大的LLM协同工作。它首先审查查询，确定文本还是代码适用于该问题，以及哪种代码最合适。

然后，它为较大的LLM生成一个提示，告诉它使用编码方法或文本推理来回答查询。较大的模型遵循该提示回答查询，并将结果发送回CodeSteer进行审查。

如果答案不正确，CodeSteer将继续提示LLM尝试不同的方法来修复问题，例如在Python代码中纳入搜索算法或约束，直到答案正确为止。

Chen说：“我们发现，很多时候，较大的LLM会试图偷懒，使用更短、效率更低的代码，这无法进行正确的符号计算。我们设计的CodeSteer就是要避免这种现象。”

一个符号检查器会评估代码的复杂性，如果代码过于简单或效率低下，它会向CodeSteer发送一个信号。研究人员还将一个自问自答检查器整合到CodeSteer中，该检查器会提示LLM生成代码来计算答案，以验证其正确性。

应对复杂任务

在设计CodeSteer时，研究人员找不到合适的符号数据集来进行模型的微调和测试，因为许多现有基准测试没有指出某个查询最好是用文本还是代码来解决。

因此，他们收集了37个复杂的符号任务语料库，包括空间推理、数学、顺序推理和优化，并构建了自己的数据集SymBench。他们采用了一种利用SymBench的微调方法，以最大限度地提高CodeSteer的性能。

在他们的实验中，CodeSteer的表现优于他们评估的所有九种基线方法，并将平均准确率从53.3%提高到86.4%。即使在未见过的任务和各种LLM上，它也能保持相似的性能。

此外，一个使用CodeSteer增强的通用模型可以实现比那些旨在专注于复杂推理和规划的最先进模型更高的准确率，同时所需的计算量要少得多。

Chen说：“我们的方法利用了LLM自身的潜力。通过赋予LLM智能使用编码的能力，我们可以进一步提升一个本已非常强大的模型的性能。”

未来，研究人员希望简化CodeSteer，以加快其迭代提示过程。此外，他们正在研究如何有效地微调一个统一的模型，使其能够在文本推理和代码生成之间切换，而不是依赖于单独的助手。

未参与此项工作的谷歌云AI的员工研究科学家Jinsung Yoon表示：“作者们为LLM中工具利用这一关键挑战提供了一个优雅的解决方案。这种简单而有效的方法使最先进的LLMs在无需直接微调的情况下实现了显著的性能提升。”他说：“这项研究是一项重大贡献，有望显著增强LLM在它们目前挣扎的各种任务中的应用。”

未参与此项工作的谷歌DeepMind的高级员工科学家Chi Wang补充道：“他们在训练一个较小的、专业化的模型来战略性地指导较大、先进模型方面的成功尤其具有影响力。这种不同AI‘智能体’之间的智能协作，为复杂现实场景中更强大、更多功能的应用程序铺平了道路。”

这项研究得到了美国海军研究办公室和麻省理工学院-IBM沃森AI实验室的部分资助。

在以下平台分享本文：

论文

论文: “CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance”

目录CONTENT

“智能教练”CodeSteer：赋能大语言模型在文本与代码之间无缝切换

面包屑导航

“智能教练”CodeSteer：赋能大语言模型在文本与代码之间无缝切换

媒体联系人:

音频

在以下平台分享本文：

论文

相关链接

相关主题

相关文章

个性化AI旅行规划的进展

研究人员教LLMs解决复杂的规划挑战

提高任何语言中AI生成代码的准确性

评论区