📢 转载信息
原文链接:http://bair.berkeley.edu/blog/2024/11/12/virutal-persona-llm/
原文作者:Suhong Moon, Marwa Abdulhai, Minwoo Kang, Joseph Suh, Widyadewi Soedarmadji, Eran Kohen Behar, David M Chan
我们引入了Anthology,一种通过生成和利用具有丰富个体价值观和经验的自然主义背景故事来调节大型语言模型(LLMs)以实现具有代表性、一致性和多样化的虚拟人格的方法。
大型语言模型(LLMs)在海量文本语料库上进行训练,这些语料库是由数百万甚至数十亿个独特的人类作者集体产生的。这究竟意味着什么?
在《Language Models as Agent Models》一文中,有令人信服的证据表明,近期的语言模型可以被视为代理模型:在给定文本上下文的情况下,LLMs能够生成代表可能产生该上下文的代理特征的条件文本。这表明,通过适当的条件设置,LLMs可以被引导来近似特定人类的声音,而不是其所涌现的声音的混合体。如果实现,这种LLMs的能力将对用户研究和社会科学产生重大影响——作为人类受试者虚拟人格的条件化语言模型,可以作为成本效益高的试点研究,并支持人类研究中的最佳实践,例如贝尔蒙特原则中的公平和仁慈原则。
在这项工作中,我们引入了Anthology,一种通过将个体的丰富详细的生活叙述作为模型条件上下文,来引导LLMs生成具有代表性、一致性和多样化的虚拟人格的方法。通过这样做,我们还提出了从LLMs自身生成背景故事的方法,以高效地生成涵盖广泛人口统计学特征的海量数据集。通过将语言模型 grounding 在自然主义的背景故事中,Anthology能够以更高的保真度模拟个体人类样本,在匹配人类响应的分布和一致性方面进行了衡量。
我们的方法:Anthology
使用个体生活叙述条件化语言模型生成
早期将LLMs引导至虚拟人格的方法的一个显著局限性在于无法可靠地近似个体人类样本。之前的方法使用广泛的人口统计信息来提示LLMs,例如,“我是一个25岁的加州人。我的最高教育水平是高中以下”,这些实际上是由一组人口统计变量生成的文本主体。通过这些方法,我们只能在群体层面近似人类样本,而不能在个体层面,这导致:
- 响应容易出现LLMs默认的刻板印象和/或原型化描绘,因为它们仅以人口统计变量(例如种族和性别)为条件。
- 无法提供感兴趣的重要度量,例如协方差和统计显著性,因为需要个体响应才能进行此类计算。
Anthology通过条件化丰富详细的背景故事,实现了对个体受试者的近似。通过这些背景故事,模型捕捉了个人身份的内隐和外显标记,包括人口统计特征以及对文化、社会经济背景和生活哲学的自发提及。我们的方法包括通过使用不受限制的、开放式的提示(例如,“谈谈你自己”)查询语言模型,生成代表广泛人口统计属性的背景故事集。然后,我们将由每个背景故事条件化的虚拟人格与真实世界的调查样本进行匹配。
结果:更接近公众意见调查的近似
在评估中,我们在近似三个皮尤研究中心ATP调查(Waves 34、92和99)的背景下,比较了不同方法在条件化虚拟人格以近似人类受访者方面的有效性。
在近似皮尤研究中心ATP调查中的人类响应结果。粗体和下划线结果分别表示最接近和第二接近人类的值。
作为用虚拟人格近似人类样本的成功度量,我们考虑以下指标:
- 响应分布之间的平均沃瑟斯坦距离(WD),作为代表性的度量。
- 相关矩阵之间的弗罗贝尼乌斯范数(Fro.),作为一致性的度量。
- 克朗巴赫系数(Cronbach’s alpha),作为内部一致性的额外度量。
在分析虚拟受试者之前,我们通过随机重复将人类人口分成两个大小相等的组,并计算亚组之间的这些度量,来估计每个评估指标的下限。我们取100次迭代的平均值来代表下限估计。
我们持续观察到,在Llama-3-70B和Mixtral-8x22B的条件下,Anthology在所有指标上都优于其他条件化方法。在比较两种匹配方法时,贪婪匹配方法在所有波次(Waves)上平均沃瑟斯坦距离方面往往表现更好。我们将匹配方法之间的差异归因于最大权重匹配的一对一对应条件以及可用虚拟用户的数量有限。具体来说,在最大权重匹配中分配给匹配虚拟受试者的权重不可避免地低于贪婪匹配中的权重,因为后者放宽了一对一对应的约束。这种差异可能导致匹配的人类用户和虚拟用户之间的人口统计相似性低于贪婪匹配的对应项。这些结果表明,我们方法中生成的背景故事的丰富性比基线方法能引发更细微的响应。
最终思考
Anthology标志着LLMs中条件化虚拟人格的一个有前景的新方向,它有可能通过提供一种可扩展且有时更符合伦理的替代传统人类调查的方式,重塑我们进行用户研究、公众意见调查和其他社会科学应用的方式。然而,Anthology的使用,以及其他语言模型在社会科学中的应用,也带来了若干需要关注的问题:尽管生成的背景故事有助于创建更具代表性的人格,但仍然存在固化偏见或侵犯隐私的风险,因此结果应谨慎使用和解释。
在未来发展方向上,我们设想我们的方法可以通过更广泛、更多样化的背景故事集受益,每个故事集都代表个体一致的生活叙事。此外,这项工作的有价值的扩展将是考虑自由形式的响应生成,从而实现超越选择题等结构化调查格式的更自然、更细致的人格模拟。最后,在行为研究中应用LLMs的一个激动人心的下一个维度将涉及模拟长期影响,使虚拟人格能够建模并回顾性地检查随时间的变化。
所有这些方向都带来了大量的技术挑战;如果您有兴趣合作或想进一步讨论我们的工作,请告知我们!
了解更多关于我们的工作:完整论文链接
@article{moon2024virtual, title={Virtual personas for language models via an anthology of backstories}, author={Moon, Suhong and Abdulhai, Marwa and Kang, Minwoo and Suh, Joseph and Soedarmadji, Widyadewi and Behar, Eran Kohen and Chan, David M}, journal={arXiv preprint arXiv:2407.06576}, year={2024} }
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区