📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2024/11/12/virutal-persona-llm/
原文作者:BAIR Blog (University of California, Berkeley)

我们介绍Anthology,一种通过生成和利用具有丰富个人价值观和经历细节的自然主义背景故事来引导大型语言模型(LLMs)形成具有代表性、一致性和多样性的虚拟角色的方法。
大型语言模型(LLMs)在汇集了数百万乃至数十亿独特人类作者集体产生的海量文本语料库上进行训练,这意味着什么呢?
在 《Language Models as Agent Models》 中,有令人信服的证据表明,近期的语言模型可以被视为智能体的模型:给定一段文本上下文,LLMs 能够生成条件文本,该文本代表了最有可能产生该上下文的智能体的特征。这表明,通过适当的条件设置,LLMs 可以被引导来近似特定人类的声音回应,而不是通常会浮现的声音混合体。如果实现,这种能力对用户研究和社会科学具有重大意义——被条件设置的语言模型可以作为人类受试者的虚拟角色,用于提供具有成本效益的初步研究,并支持人类研究中的最佳实践,例如贝尔蒙报告中的公正和仁爱原则。
在这项工作中,我们介绍 Anthology,一种通过提供个人丰富详细的生活叙事作为模型条件上下文,来引导 LLMs 生成具有代表性、一致性和多样性的虚拟角色的方法。在此过程中,我们还提出了一种方法,可以通过语言模型本身生成背景故事,从而有效地生成涵盖广泛人类人口统计学特征的大量数据集。
通过将语言模型植根于自然主义的背景故事中,Anthology 能够以更高的保真度来模拟个体人类样本,这种保真度通过匹配人类回应的分布和一致性来衡量。
我们的方法:Anthology
利用个体生活叙事对语言模型生成进行条件设置
早期引导 LLMs 形成虚拟角色的方法的显著局限在于无法可靠地近似个体人类样本。先前 的方法使用广泛的人口统计信息来提示 LLMs,例如,“我是一个 25 岁的加州人。我的最高教育水平低于高中”,这本质上是从一组人口统计变量元组生成的文本体。使用这些方法,我们只能在群体层面上近似人类样本,而无法在个体层面进行,这导致了:
- 由于仅以人口统计变量(例如种族和性别)为条件,回应很容易导致 LLMs 默认采用刻板印象和/或原型化的描绘
- 无法提供重要的关注指标,例如协方差和统计显著性,因为此类计算需要个体回应
Anthology 通过使用丰富详细的背景故事进行条件设置,实现了对个体受试者的近似。通过这些背景故事,模型捕获了个性身份的隐性或显性标记,包括人口统计特征以及对文化、社会经济背景和生活哲学的自发提及。我们的方法涉及通过使用不受限制的、开放式提示(例如,“告诉我关于你自己”)查询语言模型,生成代表广泛人口统计属性的大量背景故事。然后,我们将由每个背景故事条件设置的虚拟角色与现实世界的调查样本进行匹配。
结果:更接近地近似民意调查
为了进行评估,我们将不同方法在近似三个皮尤研究中心 ATP 调查(第 34、92 和 99 波)中条件设置虚拟角色的有效性进行了比较。
在近似皮尤研究中心 ATP 调查的人类回应方面的结果。粗体和下划线的结果分别表示最接近和第二接近人类的数值。
作为使用虚拟角色近似人类样本的成功指标,我们考虑了以下指标:
- 作为代表性度量的回应分布之间的平均 Wasserstein 距离 (WD)
- 作为一致性度量的相关矩阵之间的弗罗贝尼乌斯范数 (Fro.)
- 作为内部一致性的附加度量的克朗巴赫 α 系数
在分析虚拟受试者之前,我们通过反复将人类总体随机划分为两个相等大小的组并计算子组之间的这些指标,来估计每个评估指标的下限。我们取 100 次迭代的平均值作为下限估计值。
我们一致观察到,对于 Llama-3-70B 和 Mixtral-8x22B,Anthology 在所有指标上都优于其他条件设置方法。在比较两种匹配方法时,贪婪匹配方法在所有波次上的平均 Wasserstein 距离方面往往表现更好。我们将匹配方法的差异归因于最大权重匹配的一对一对应条件以及可用的虚拟用户数量有限。具体来说,最大权重匹配中分配给匹配虚拟受试者的权重不可避免地低于贪婪匹配,因为后者放宽了一对一对应关系的约束。这种差异可能导致与贪婪匹配相比,匹配的人类用户和虚拟用户之间的人口统计学相似性较低。这些结果表明,我们方法中生成的背景故事的丰富性比基线方法能引发更细微的回应。
最后的思考
Anthology 标志着 LLMs 中条件设置虚拟角色方面的一个有前景的新方向,通过提供传统人类调查的一种可扩展的、有时甚至是合乎伦理的替代方案,它可能会重塑我们进行用户研究、民意调查和其他社会科学应用的方式。然而,与任何其他在社会科学中使用语言模型的应用一样,Anthology 的使用也带来了几个需要考虑的问题:尽管生成的背景故事有助于创建更具代表性的角色,但仍然存在加剧偏见或侵犯隐私的风险,因此结果应谨慎使用和解释。
就未来步骤而言,我们设想我们的方法可以从更广泛、更多样化的背景故事集中受益,每个背景故事都代表了个体一致的生活叙事。此外,这项工作的一个有价值的扩展是考虑自由格式的回应生成,以实现超越多项选择等结构化调查格式的更自然和细微的角色模拟。最后,将 LLMs 应用于行为研究的一个令人兴奋的新维度将涉及模拟长期影响,允许虚拟角色对随时间的变化进行建模和回顾性检查。
所有这些方向都带来了大量的技术挑战;如果您有兴趣合作或希望进一步讨论我们的工作,请告知我们!
了解有关我们工作的更多信息: 完整论文链接
@article{moon2024virtual,
title={Virtual personas for language models via an anthology of backstories},
author={Moon, Suhong and Abdulhai, Marwa and Kang, Minwoo and Suh, Joseph and Soedarmadji, Widyadewi and Behar, Eran Kohen and Chan, David M},
journal={arXiv preprint arXiv:2407.06576},
year={2024}
}
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区