📢 转载信息
原文链接:https://news.mit.edu/2025/3-questions-pros-cons-synthetic-data-ai-kalyan-veeramachaneni-0903
原文作者:Adam Zewe | MIT News
AI时代的合成数据:优势、风险与实践深度解析
人工智能(AI)正在以前所未有的速度发展,而驱动这一切的核心燃料之一就是数据。最近,合成数据(Synthetic Data)因其在节约成本、保护隐私方面的潜力而备受关注。麻省理工学院(MIT)研究员Kalyan Veeramachaneni深入探讨了合成数据的优势、局限性以及如何负责任地应用它们。
据估计,到2024年,超过60%用于AI应用的都是合成数据,并且这一比例预计还将继续增长。
由于合成数据不包含任何真实世界的信息,它们有望在降低开发成本、提高新AI模型开发速度的同时,更好地保护用户隐私。然而,使用合成数据也要求开发者必须进行仔细的评估、规划和检验,以确保在模型部署后性能不会下降。
以下是MIT News对Kalyan Veeramachaneni的专访,旨在解析合成数据的使用利弊。
访谈嘉宾: Kalyan Veeramachaneni,信息与决策系统实验室(Laboratory for Information and Decision Systems)首席研究员,DataCebo 联合创始人,其开源平台Synthetic Data Vault 帮助用户生成和测试合成数据。
第一问:合成数据是如何创建的?
A: 合成数据是通过算法生成的,但它们并不来源于真实场景。其价值在于它们在统计学上与真实数据相似。例如,如果是语言数据,合成数据看起来就像是人类写出来的句子一样真实。
虽然研究人员创造合成数据已有很长时间,但近几年发生的变化是,我们构建数据生成模型的(Generative Models)能力得到了极大的提升,并利用这些模型来创建高度逼真的合成数据。我们可以利用少量真实数据来构建一个生成模型,然后用这个模型来生成我们需要的任意数量的合成数据。更重要的是,这个模型在生成数据的过程中,能够捕捉到真实数据中存在的所有潜在规则和无限模式。
数据主要有四种模式:语言、视频/图像、音频和表格数据。这四种模式在构建生成模型以创建合成数据时,方法略有不同。例如,大型语言模型(LLM)本质上就是一个生成模型,当我们向它提问时,我们正在从中采样合成数据。
大量的语言和图像数据可以在互联网上公开获取。但是,表格数据(即我们在与物理和社会系统交互时收集的数据)往往被锁定在企业防火墙之后。其中很大一部分是敏感或私有的,比如银行存储的客户交易记录。对于这类数据,像Synthetic Data Vault这样的平台提供了软件,可用于构建生成模型。这些模型随后生成的合成数据,可以在保护客户隐私的同时被更广泛地共享。
这种合成数据的生成建模方法一个强大的优势在于,企业现在可以为其自有数据构建定制化的本地模型。生成式AI正在自动化过去需要人工完成的过程。

图注: Kalyan Veeramachaneni就使用合成数据的优缺点接受了MIT News的采访。
图源: MIT News; iStock
第二问:使用合成数据有哪些好处?它们特别适合哪些应用场景?
A: 过去十年中飞速发展的一个基础应用是利用合成数据来测试软件应用。许多软件应用背后都有数据驱动的逻辑,因此需要数据来测试软件及其功能。过去,人们不得不手动生成数据,而现在我们可以利用生成模型来按需创建所需的数据量。
用户还可以为特定应用测试创建数据。比如,我为一家电子商务公司工作,我可以生成模拟真实客户的合成数据,这些客户居住在俄亥俄州,并在二月或三月进行了特定产品的交易。
由于合成数据并非源于真实情况,因此它们具有隐私保护的特性。在软件测试中,过去最大的难题之一是出于隐私考虑,难以在非生产环境中获取敏感的真实数据进行测试。另一个直接的好处是性能测试。你可以利用生成模型创建十亿笔交易,并测试你的系统处理这些数据的速度。
合成数据在训练机器学习模型方面也大有潜力。有时,我们希望AI模型能帮助我们预测一个不常发生的事件。比如,银行可能希望使用AI模型来预测欺诈性交易,但真实的欺诈案例可能太少,不足以训练出能准确识别欺诈的模型。这时,合成数据可以提供数据增强——即与真实数据相似的额外数据样本。这可以显著提高AI模型的准确性。
此外,用户有时没有时间或财力去收集所有所需数据。例如,收集关于客户意图的数据需要进行大量调查。如果最终数据有限,然后尝试训练模型,模型性能就不会好。你可以通过添加合成数据来进行增强,从而更好地训练模型。
第三问:使用合成数据有哪些风险或潜在陷阱?用户应采取哪些措施来预防或减轻这些问题?
A: 人们常问的一个大问题是:数据是合成生成的,我为什么要相信它们?相信与否往往取决于你评估的整个系统。
对于合成数据的许多方面,我们已经有了长期评估方法。例如,我们有现有的方法来衡量合成数据与真实数据有多接近,我们可以评估其质量并确定它们是否保留了隐私。但是,如果你使用这些合成数据来训练一个针对新用例的机器学习模型,还有其他重要考虑因素。你如何知道这些数据会产生仍然能得出有效结论的模型呢?
新的有效性指标(Efficacy Metrics)正在涌现,目前的重点是针对特定任务的有效性。你必须深入研究你的工作流程,以确保你添加到系统中的合成数据仍然能让你得出有效的结论。这是一个必须根据具体应用仔细进行的操作。
偏见(Bias)也是一个问题。由于合成数据是从少量真实数据中创建的,真实数据中存在的偏见可能会转移到合成数据中。与真实数据一样,你需要有意识地确保通过不同的采样技术消除偏见,从而创建平衡的数据集。这需要仔细规划,但你可以校准数据生成过程,以防止偏见扩散。
为了协助评估过程,我们小组创建了合成数据指标库(Synthetic Data Metrics Library)。我们担心人们会在自己的环境中盲目使用合成数据,结果在现实世界中得出不同的结论。因此,我们创建了一个指标和评估库,以确保有必要的制衡措施。机器学习界在确保模型能够泛化到新情况方面遇到了很多挑战,而使用合成数据则为这一问题增添了新的维度。
我预计,随着我们构建生成模型的本领越来越强,处理数据的方式,无论是用于构建软件应用、回答分析问题,还是训练模型,都将发生巨大变化。许多以前我们无法做到的事情,现在都将成为可能。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区