📢 转载信息
原文链接:https://news.mit.edu/2025/how-build-ai-scaling-laws-efficient-llm-training-budget-maximization-0916
原文作者:Lauren Hinkel | MIT-IBM Watson AI Lab
如何构建AI缩放定律,实现大型语言模型(LLM)的高效训练与预算最优化
麻省理工学院(MIT)和MIT-IBM沃森AI实验室的研究人员开发了一个通用指南,用于根据同一模型家族中的较小模型来估算大型语言模型的性能。
图注:缩放定律使研究人员能够利用较小的LLM来预测性能显著更大的目标模型的表现,从而更好地分配计算能力。 图片来源:AdobeStock
在构建大型语言模型(LLM)时,研究人员的目标是在特定的计算和财务预算下最大化性能。由于训练一个模型可能耗资数百万美元,开发者在投入到模型之前,必须在影响成本的决策上(如模型架构、优化器和训练数据集等方面)保持审慎。为了预测大型模型的质量和准确性,从业者通常会转向缩放定律(scaling laws):即使用更小、成本更低的模型来近似一个更大目标模型的性能。然而,挑战在于创建缩放定律的方法有数千种。
MIT和MIT-IBM沃森AI实验室的最新研究解决了这一问题。他们收集并发布了数百个关于训练和性能的模型及指标,用于近似一千多种缩放定律。基于此,研究团队开发了一种元分析和指南,指导如何在不同LLM模型家族中选择小型模型并估算缩放定律,以确保预算被最优地用于生成可靠的性能预测。
“你可以尝试为训练过程构建数学模型这种想法已经有几年了,但我认为新颖之处在于,之前大多数工作只是在说,‘我们能否对所有这些模型的训练过程进行事后分析,以便在考虑如何训练新的大规模模型时,能就如何使用我们的计算预算做出最佳决策?’”电气工程与计算机科学系副教授兼MIT-IBM沃森AI实验室首席研究员Jacob Andreas表示。
这项研究最近由Andreas以及IBM研究院的MIT-IBM沃森AI实验室研究员Leshem Choshen和Yang Zhang在国际机器学习会议(International Conference on Machine Learning)上发表。
外推性能:不再需要盲目投入
无论如何划分,开发LLM都是一项昂贵的任务:从关于参数数量和Token数量的决策,到数据选择和大小,再到训练技术和确定输出精度,以及针对目标应用和任务进行调整。缩放定律提供了一种通过将大型模型的损失(loss)与同一家族中较小、成本较低的模型的性能联系起来,来预测模型行为的方法,从而避免了对每个候选模型进行完全训练的需要。通常,较小模型之间的差异在于参数数量和训练Token的大小。据Choshen介绍,阐明缩放定律不仅能改善预训练决策,还能通过使没有庞大资源的 গবেষ者能够理解和构建有效的缩放定律,从而促进该领域的民主化。
缩放定律的函数形式相对简单,包含来自小型模型的组件,这些组件捕捉了参数数量及其缩放效应、训练Token数量及其缩放效应,以及所关注模型家族的基准性能。它们共同帮助研究人员估算目标大型模型的性能损失;损失越小,目标模型的输出可能越好。
这些定律使研究团队能够高效地权衡取舍,并测试如何最好地分配有限的资源。它们在评估特定变量(如Token数量)的缩放以及对不同预训练设置进行A/B测试时特别有用。
总的来说,缩放定律并不新鲜;然而,在人工智能领域,它们随着模型的增长和成本的飙升而出现。“这就像缩放定律在某个时刻突然出现在该领域一样,”Choshen说。“它们开始受到关注,但没有人真正测试过它们有多好,以及你需要做些什么才能构建一个好的缩放定律。”此外,缩放定律本身在某种意义上也是一个黑箱。“过去,当人们创建缩放定律时,总是一个模型或一个模型家族、一个数据集和一个开发者,”Andreas说。“实际上还没有太多系统的元分析,因为每个人都在独立地训练自己的缩放定律。[所以我们想知道]是否能在所有这些方面看到更高层次的趋势?”
构建更优:大规模数据分析的指导方针
为了探究这一点,Choshen、Andreas和Zhang创建了一个大型数据集。他们收集了来自40个模型家族的LLM,包括Pythia、OPT、OLMO、LLaMA、Bloom、T5-Pile、ModuleFormer混合专家模型、GPT及其他家族。这些数据包括485个独特的预训练模型,以及关于其训练检查点、计算成本(FLOPs)、训练轮次和随机种子,以及190万个损失和下游任务性能指标。模型的架构、权重等方面各不相同。利用这些模型,研究人员拟合了超过1000个缩放定律,并比较了它们在不同架构、模型规模和训练方案中的准确性,同时测试了模型数量、包含中间训练检查点以及部分训练对预测目标模型缩放定律的预测能力的影响。他们使用了绝对相对误差(ARE)作为衡量标准;这是缩放定律的预测值与已训练大型模型的观测损失之间的差异。通过此标准,团队比较了缩放定律,并在分析后为AI从业者提炼出关于有效缩放定律的实用建议。
他们共享的指南引导开发者完成需要考虑的步骤和选项,以及预期结果。首先,确定计算预算和目标模型精度至关重要。团队发现,由于随机种子噪声,大约4%的ARE是可实现的最大精度,但高达20%的ARE对于决策仍然有用。研究人员确定了几个可以提高预测准确性的因素,例如包含中间训练检查点,而不是仅依赖最终损失;这使得缩放定律更加可靠。然而,早于100亿Token的训练数据存在噪声,会降低准确性,应该被丢弃。他们建议优先考虑跨越不同规模训练更多的模型以提高缩放定律预测的鲁棒性,而不仅仅是训练更大的模型;选择五个模型是可靠的起点。
通常情况下,包含更大的模型可以提高预测精度,但通过将目标模型部分训练到其数据集的约30%并以此进行外推,可以节省成本。如果预算受到严格限制,开发者应考虑在一个较小的模型内进行训练,并从具有相似架构的模型家族借用缩放定律参数;但这可能不适用于编码器-解码器模型。最后,MIT-IBM研究小组发现,当比较不同模型家族的缩放定律时,两组超参数之间存在很强的相关性,这意味着五个超参数中有三个解释了几乎所有的变化,很可能捕获了模型的行为。总而言之,这些指南提供了一种系统化的方法,使在不同预算限制下工作的AI研究人员能够更高效、更可靠、更易于地估算缩放定律。
这项工作带来了一些惊喜:部分训练的小模型仍然具有很强的预测能力,此外,完全训练模型的中间训练阶段可以被用作(如同独立模型一样)来预测另一个目标模型。“基本上,你不需要在训练中付出任何代价,因为你已经训练好了完整的模型,所以这个半训练的模型,比如,只是你所做工作的一个副产品,”Choshen说。Andreas指出的另一个特点是,当聚合后,模型家族和不同实验之间的变化跳出来,并且比预期的更嘈杂。出乎意料的是,研究人员发现可以利用大型模型的缩放定律来预测更小模型的性能。该领域的其他研究曾假设较小的模型与大型模型是“不同的物种”;然而,Choshen并不同意。“如果它们完全不同,它们应该表现出完全不同的行为,但它们没有。”
虽然这项工作集中在模型训练时间上,但研究人员计划将他们的分析扩展到模型推理上。Andreas表示,重点不再是“随着我添加更多训练数据或更多参数,我的模型如何变得更好”,而是“随着我让它思考更长时间、抽取更多样本”。他说:“我认为这里肯定有一些经验教训,可以用来构建关于运行时需要进行多少‘思考’的预测模型。”他认为推理时间缩放定律的理论可能变得更加关键,因为“我不会只训练一个模型然后就结束了。[相反],每次用户向我查询时,我都需要弄清楚我的模型需要‘思考’多深才能给出最佳答案。因此,构建我们在这篇论文中所做的这类预测模型,甚至更为重要。”
这项研究得到了MIT-IBM沃森AI实验室和斯隆研究奖学金的部分支持。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区