目 录CONTENT

文章目录

通过背景故事集为语言模型构建虚拟角色:Anthology 方法介绍

Administrator
2025-10-21 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:http://bair.berkeley.edu/blog/2024/11/12/virutal-persona-llm/

原文作者:Suhong Moon, Marwa Abdulhai, Minwoo Kang, Joseph Suh, Widyadewi Soedarmadji, Eran Kohen Behar, David M. Chan



我们引入了Anthology,一种通过生成和利用具有丰富个人价值观和经验细节的自然主义背景故事,来引导大型语言模型(LLM)形成具有代表性、一致性和多样性的虚拟角色的方法。

大型语言模型(LLM)在大规模文本语料库上进行训练,这些语料库是数百万乃至数十亿独特人类作者共同产生的,这意味着什么呢?

《Language Models as Agent Models》一文中,有令人信服的证据表明,近期的语言模型可以被视为代理的模型:当提供文本上下文时,LLM能够生成代表可能产生该上下文的代理特征的条件文本。这表明,通过适当的条件设置,LLM可以被引导来近似特定人类的声音响应,而不是通常出现的声音的混合体。如果实现这一点,这种LLM的能力将对用户研究和社会科学产生重大影响——作为人类受试者的虚拟角色的条件语言模型可以作为经济高效的试点研究,并支持人类研究中的最佳实践,例如贝尔蒙特原则中的公正性和有益性原则。

在这项工作中,我们引入了Anthology,这是一种通过提供个体详尽的生活叙事作为条件上下文来引导LLM形成具有代表性、一致性和多样性虚拟角色的方法。在此过程中,我们还提出了从LLM本身生成背景故事的方法,以此来高效地产生涵盖广泛人类人口统计特征的大型数据集。

通过将语言模型建立在自然主义的背景故事之上,Anthology 使得LLM能够以更高的保真度来模拟个体人类样本,这种保真度通过匹配人类响应的分布和一致性来衡量。

我们的方法:Anthology

使用个体生活叙事条件化语言模型生成

早期将LLM引导至虚拟角色的方法存在一个显著限制,即无法可靠地近似个体人类样本。先前方法使用广泛的人口统计信息来提示LLM,例如,“我是一个来自加利福尼亚的25岁人士。我的最高教育水平低于高中”,这本质上是从一组人口统计变量中生成的文本体。使用这些方法,我们只能在群体层面上近似人类样本,而不能在个体层面,这导致了:

  • 响应容易出现LLM默认的刻板印象和/或原型化描绘,因为它们仅以人口统计变量(如种族和性别)为条件;
  • 无法提供重要的关注指标,如协方差和统计显著性,因为个体响应是进行此类计算所必需的。

Anthology 通过提供详尽的背景故事来进行条件设置,从而实现了对个体主体的近似。通过这些背景故事,模型捕捉到个人身份的隐性或显性标记,包括人口统计特征以及对文化、社会经济背景和生活哲学的自发提及。我们的方法涉及通过使用不受限制、开放式提示(例如,“告诉我关于你自己”)查询语言模型,来生成代表广泛人口统计属性的大量背景故事。然后,我们将由每个背景故事条件化的虚拟角色与真实世界的调查样本进行匹配。

结果:更接近公共意见调查的近似

为了进行评估,我们比较了在近似皮尤研究中心ATP调查的第34、第92和第99波次这三项调查的背景下,不同虚拟角色条件化方法的有效性。


在近似皮尤研究中心ATP调查的人类响应方面的结果。粗体和下划线表示最接近和第二接近人类值的结果,分别如此。

作为用虚拟角色近似人类样本的成功度量标准,我们考虑了以下指标:

  • 响应分布之间的平均Wasserstein距离(WD),作为代表性的度量;
  • 相关矩阵之间的弗罗贝尼乌斯范数(Fro.),作为一致性的度量;
  • Cronbach’s alpha,作为内部一致性的附加度量。

在分析虚拟受试者之前,我们通过反复将人群随机划分为两个大小相等的子组并计算子组之间的这些度量指标,来估计每个评估指标的下限。我们取100次迭代的平均值来表示下限估计值。

我们一致观察到,对于Llama-3-70B和Mixtral-8x22B模型,Anthology在所有指标上都优于其他条件化方法。在比较两种匹配方法时,贪婪匹配方法在所有波次的平均Wasserstein距离上倾向于表现更好。我们将匹配方法的差异归因于最大权重匹配的一对一对应条件以及可用的虚拟用户数量有限。具体来说,分配给最大权重匹配中的匹配虚拟受试者的权重不可避免地低于贪婪匹配中的权重,因为后者放宽了一对一对应的约束。这种差异可能导致与贪婪匹配相比,匹配后的人类用户和虚拟用户之间的人口统计相似性较低。这些结果表明,我们方法中生成的背景故事的丰富性比基线方法能引发更细致的响应。

最后的想法

Anthology 标志着LLM中虚拟角色条件化方向的一个有前景的新方向,通过提供传统人类调查的可扩展且有时更合乎伦理的替代方案,有可能重塑我们进行用户研究、民意调查和其他社会科学应用的方式。

然而,与任何其他在社会科学中应用语言模型一样,Anthology 的使用也凸显了几个需要考虑的问题:尽管生成的背景故事有助于创建更具代表性的角色,但仍然存在加剧偏见或侵犯隐私的风险,因此应谨慎使用和解释结果。

在未来步骤方面,我们设想我们的方法可以受益于更广泛、更多样化的背景故事集,每组背景故事都代表了个体一致的生活叙事。此外,这项工作的一个有价值的扩展是考虑自由形式的响应生成,从而实现比多项选择等结构化调查格式更自然、更细致的角色模拟。最后,将LLM应用于行为研究的一个令人兴奋的新维度是模拟长期影响,使虚拟角色能够建模和追溯检查随时间的变化。

所有这些方向都带来了许多技术挑战;如果您有兴趣合作或希望进一步讨论我们的工作,请告诉我们!

了解更多关于我们的工作:完整论文链接

@article{moon2024virtual, title={Virtual personas for language models via an anthology of backstories}, author={Moon, Suhong and Abdulhai, Marwa and Kang, Minwoo and Suh, Joseph and Soedarmadji, Widyadewi and Behar, Eran Kohen and Chan, David M}, journal={arXiv preprint arXiv:2407.06576}, year={2024}
}



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区