目 录CONTENT

文章目录

通过“背景故事集”为大语言模型打造虚拟人格:Anthology方法介绍

青云TOP
2025-10-09 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2024/11/12/virutal-persona-llm/

原文作者:Suhong Moon, Marwa Abdulhai, Minwoo Kang, Joseph Suh, Widyadewi Soedarmadji, Eran Kohen Behar, David. M Chan, and John Canny


通过“背景故事集”为大语言模型打造逼真的虚拟人格


我们介绍了 Anthology 方法,通过生成和利用包含丰富个人价值观和经验细节的自然主义背景故事,对大语言模型(LLM)进行条件化,使其形成具有代表性、一致性和多样性的虚拟人格。

大型语言模型(LLMs)在由数百万乃至数十亿独特人类作者集体产生的海量文本语料库上进行训练,这意味着什么?

在论文《Language Models as Agent Models》中,有令人信服的证据表明,近期的语言模型可以被视为“代理模型 (agent models)”:只要给定一段文本上下文,LLM 就能生成代表可能产生该上下文的代理特征的条件文本。这表明,通过适当的条件设置,LLM 可以被引导去模拟特定人类的声音,而不是通常出现的“声音的混合体”。如果实现,这种能力对用户研究和社会科学具有重大意义——经过条件化训练的语言模型可以作为人类受试者的虚拟人格,用于成本效益高的试点研究,并支持人类研究中的最佳实践(例如贝尔蒙特原则中的公正和仁慈原则)。

在这项工作中,我们引入了 Anthology 方法,通过提供个体丰富详细的生命叙事作为条件上下文,来引导 LLM 形成具有代表性、一致性和多样性的虚拟人格。同时,我们也提出了从 LLM 本身生成背景故事的方法,以便高效地覆盖广泛人口统计特征的大规模数据集。

通过将语言模型建立在自然主义的背景故事之上,Anthology 能够以更高的保真度模拟个体人类样本,这种保真度通过匹配人类响应的分布和一致性来衡量。

我们的方法:Anthology

使用个体生命叙事条件化语言模型生成

早期引导 LLM 形成虚拟人格的方法存在一个显著的局限性,即无法可靠地近似个体人类样本。此前的 方法方法使用宽泛的人口统计信息进行提示,例如:“我是一个 25 岁的加州人,受教育程度低于高中”。这些本质上是从一组人口统计变量中生成的文本。使用这些方法,我们只能近似群体层面的人类样本,而无法达到个体层面,这导致了:

  • 响应容易偏向于 LLM 的刻板印象和/或原型描绘,因为它们仅基于人口统计变量(如种族和性别)进行条件化。
  • 由于需要个体响应来进行此类计算,因此无法提供协方差和统计显著性等重要的感兴趣指标。

Anthology 通过提供丰富详细的背景故事,实现了对个体受试者的近似。通过这些背景故事,模型捕获了个人身份的隐性和显性标记,包括人口统计特征以及对文化、社会经济背景和人生哲学的自发提及。我们的方法涉及通过对语言模型进行开放式、不受限制的提示(例如,“告诉我关于你自己”),生成代表广泛人口统计属性的大量背景故事。然后,我们将由每个背景故事条件化的虚拟人格与现实世界的调查样本进行匹配。

结果:更贴近民意调查的近似

为了进行评估,我们将不同虚拟人格条件化方法在近似皮尤研究中心 ATP 三项调查(第 34、92 和 99 波)中的有效性进行了比较。


在近似皮尤研究中心 ATP 调查中的人类响应结果。粗体和带下划线的结果分别表示最接近和第二接近人类值的数值。

我们考虑以下指标来衡量使用虚拟人格近似人类样本的成功程度:

  • 响应分布之间的平均 Wasserstein 距离 (WD),作为代表性的度量。
  • 相关矩阵之间的 Frobenius 范数 (Fro.),作为一致性的度量。
  • Cronbach's alpha,作为内部一致性的附加度量。

在分析虚拟受试者之前,我们通过随机将人群重复分成两个大小相等的子群并计算子群之间的这些指标,来估算每个评估指标的下限。我们取 100 次迭代的平均值来代表下限估计值。

我们一致观察到,对于 Llama-3-70B 和 Mixtral-8x22B,Anthology 在所有指标上都优于其他条件化方法。在比较两种匹配方法时,贪婪匹配法(greedy matching method)在所有波次上对平均 Wasserstein 距离的表现往往更好。我们将匹配方法的差异归因于最大权重匹配(maximum weight matching)的一对一对应条件以及可用虚拟用户数量的限制。具体来说,分配给最大权重匹配中匹配虚拟受试者的权重不可避免地低于贪婪匹配,因为后者放松了一对一对应的约束。这种差异可能导致与贪婪匹配相比,匹配的人类用户和虚拟用户之间的人口统计学相似度较低。这些结果表明,我们方法中生成背景故事的丰富性引发了比基线更细致的响应。

总结与展望

Anthology 标志着 LLM 虚拟人格条件化领域的一个有希望的新方向,它有可能通过提供比传统人工调查更具可扩展性、有时也更合乎伦理的替代方案,重塑用户研究、民意调查和其他社会科学应用的研究方式。然而,与语言模型在社会科学中的任何其他应用一样,Anthology 的使用也凸显了一些需要注意的问题:尽管生成的背景故事有助于创建更具代表性的人格,但仍然存在延续偏见或侵犯隐私的风险,因此结果应谨慎使用和解释。

就未来步骤而言,我们设想我们的方法可以从更广泛、更多样化的背景故事中受益,每一个故事都代表了连贯的个体生命叙事。此外,这项工作的有价值的扩展是考虑自由格式的响应生成,从而实现超越多项选择等结构化调查格式的更自然和细致的人格模拟。最后,将 LLM 应用于行为研究的令人兴奋的新维度将涉及模拟长期影响,允许虚拟人格建模和追溯随时间变化的检查。

所有这些方向都带来了大量的技术挑战;如果您有兴趣合作或想进一步讨论我们的工作,请告诉我们!

了解更多关于我们的工作:完整论文链接

@article{moon2024virtual,
  title={Virtual personas for language models via an anthology of backstories},
  author={Moon, Suhong and Abdulhai, Marwa and Kang, Minwoo and Suh, Joseph and Soedarmadji, Widyadewi and Behar, Eran Kohen and Chan, David M},
  journal={arXiv preprint arXiv:2407.06576},
  year={2024}
}



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区