目 录CONTENT

文章目录

“故事集”技术:利用详尽背景故事为大语言模型塑造逼真虚拟人物形象

Administrator
2025-10-13 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2024/11/12/virutal-persona-llm/

原文作者:Suhong Moon, Marwa Abdulhai, Minwoo Kang, Joseph Suh, Widyadewi Soedarmadji, Eran Kohen Behar, David. M Chan, and John Canny



我们推出了Anthology(故事集)方法,通过生成和利用具有丰富个人价值观和生活经验细节的自然主义背景故事,来对大语言模型(LLMs)进行条件化设置,使其具备代表性、一致性和多样性的虚拟人物形象。

当大语言模型(LLMs)在由数百万乃至数十亿独特人类作者共同产生的海量文本语料库上进行训练时,这究竟意味着什么?

《Language Models as Agent Models》(大语言模型即智能体模型)一文中,有令人信服的证据表明,近期的语言模型可以被视为是“智能体”的模型:只要提供文本上下文,LLMs 就有能力生成条件化文本,以反映最有可能产生该上下文的某个智能体的特征。这表明,通过适当的条件化设置,LLMs 可以被引导去近似某个特定人类的声音,而不是默认输出的“众声喧哗”的混合体。如果实现,LLMs 的这种能力将对用户研究和社会科学产生重大影响——条件化语言模型可以作为人类受试者的虚拟人物,为人类研究提供高成本效益的试点研究和最佳实践支持,例如贝尔蒙特报告中的公正和慈善原则。

在这项工作中,我们介绍了 Anthology(故事集)方法,该方法通过提供个体丰富详细的生平叙事作为模型的条件化上下文,来引导 LLMs 生成具有代表性、一致性和多样性的虚拟人物形象。在此过程中,我们还提出了一种方法,即利用语言模型自身来生成背景故事,以此作为一种高效地覆盖广泛人口统计群体背景故事集的方式。通过将语言模型建立在自然主义的背景故事之上,Anthology 能够以更高的保真度来模拟个体人类样本,这种保真度通过匹配人类反应的分布和一致性来衡量。

我们的方法:Anthology(故事集)

利用个体生平叙事条件化语言模型的生成

早期将 LLMs 引导至虚拟人物的方法的一个重大局限是无法可靠地近似个体人类样本。以往的方法是通过广泛的人口统计信息来提示 LLMs,例如:“我是一个 25 岁的加州人。我的最高学历未达到高中水平”,这些信息本质上是根据一组人口统计变量生成的文本体。使用这些方法,我们只能在群体层面近似人类样本,而无法达到个体层面,这导致了:

  • 由于仅以人口统计变量(如种族和性别)为条件,模型生成的反应容易陷入 LLMs 默认的刻板印象和/或原型描绘中。
  • 无法提供如协方差和统计显著性等重要的关注指标,因为计算这些指标需要个体反应数据。

Anthology 通过提供丰富详细的背景故事,使得近似个体受试者成为可能。通过这些背景故事,模型能够捕捉到个人身份的隐性和显性标记,包括人口统计特征以及对文化、社会经济背景和生活哲学的自发提及。我们的方法涉及通过使用不受限制的开放式提示(如“告诉我关于你自己”)查询语言模型,生成代表广泛人口统计属性的大量背景故事。然后,我们将由每个背景故事条件化的虚拟人物与真实世界的调查样本进行匹配。

结果:更接近地近似民意调查

为了进行评估,我们将不同方法在近似皮尤研究中心 ATP 调查(第 34、92 和 99 波)的背景下,对条件化虚拟人物的有效性进行了比较。


在近似皮尤研究中心 ATP 调查人类反应方面的结果。粗体和下划线的结果分别表示最接近和第二接近人类值的数值。

作为使用虚拟人物近似人类样本的成功衡量标准,我们考虑了以下指标:

  • 响应分布之间的平均 Wasserstein 距离 (WD),作为代表性的度量。
  • 相关矩阵之间的 Frobenius 范数 (Fro.),作为一致性的度量。
  • Cronbach's alpha,作为内部一致性的附加度量。

在分析虚拟受试者之前,我们通过随机重复将人类总体划分为两个大小相等的子组,并计算子组之间的这些指标,来估计每个评估指标的下界。我们取 100 次迭代的平均值来表示下界估计值。

我们一致观察到,对于 Llama-3-70B 和 Mixtral-8x22B 两种模型,Anthology 在所有指标上均优于其他条件化方法。在比较两种匹配方法时,贪婪匹配法在所有波次上平均 Wasserstein 距离方面倾向于表现更好。我们将匹配方法的差异归因于最大权重匹配的一对一对应条件限制以及可用虚拟用户数量的有限性。具体来说,最大权重匹配中分配给匹配虚拟受试者的权重不可避免地低于贪婪匹配,因为后者放宽了一对一对应的约束。这种差异可能导致与贪婪匹配相比,匹配的人类用户和虚拟用户在人口统计学相似性上较低。这些结果表明,我们方法中生成的背景故事的丰富性引发了比基线方法更细致的反应。

总结思考

Anthology 标志着 LLMs 中条件化虚拟人物研究的一个有前景的新方向,它可能通过提供比传统人类调查更具可扩展性,有时甚至更具道德性的替代方案,从而重塑我们进行用户研究、民意调查和其他社会科学应用的方式。然而,与任何其他在社会科学中应用语言模型的情况一样,使用 Anthology 也凸显出一些需要考虑的问题:尽管生成的背景故事有助于创建更具代表性的人物形象,但仍然存在加剧偏见或侵犯隐私的风险,因此应谨慎使用和解释结果。

在未来步骤方面,我们设想我们的方法可以受益于更广泛、更多样化的背景故事集,每组故事都代表了个体一致的生命叙事。此外,这项工作的一个有价值的扩展是考虑自由格式的响应生成,从而实现比选择题等结构化调查格式更自然、更细致的人物模拟。最后,将 LLMs 应用于行为研究的一个激动人心的下一个维度是模拟长期影响,允许虚拟人物来建模和回顾性地检查随时间的变化。

所有这些方向都带来了大量的技术挑战;如果您有兴趣合作或希望进一步讨论我们的工作,请随时联系我们!

了解更多关于我们的工作:完整论文链接

@article{moon2024virtual,
  title={Virtual personas for language models via an anthology of backstories},
  author={Moon, Suhong and Abdulhai, Marwa and Kang, Minwoo and Suh, Joseph and Soedarmadji, Widyadewi and Behar, Eran Kohen and Chan, David M},
  journal={arXiv preprint arXiv:2407.06576},
  year={2024}
}



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区