目 录CONTENT

文章目录

研究发现:AI模型在模拟人类对话时面临“幻觉”挑战

Administrator
2025-12-18 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.bbc.com/news/articles/c93w7dp42z2o?at_medium=RSS&at_campaign=rss

原文作者:BBC News


一项针对人工智能模型的研究发现,尽管这些模型在模拟人类对话方面表现出色,但它们在说出事实时仍存在“幻觉”问题。

研究人员表示,当人工智能(AI)模型被要求进行对话时,它们可能会“捏造”事实,生成看起来像是真理但实际上是错误的陈述。

该研究首次对AI模型进行测试,以了解它们在模仿人类对话时如何处理事实。

“我们发现它们会做白日梦”

这项研究发表在《自然-人类行为》(Nature Human Behaviour)杂志上。

研究人员让AI模型扮演特定的角色,并与人类进行对话。

在一项实验中,研究人员要求AI模型扮演一个名叫“张先生”(Mr. Zhang)的中国老人,他讲述了自己在一场音乐会上的经历。

AI模型成功地扮演了这个角色,流畅地讲述了它与一位名叫“李女士”(Ms. Li)的钢琴家合作的经历。

模型描述了钢琴家如何因为音乐会太吵而“拒绝”演奏,并说“音乐会结束后,他们带走了钢琴”。

然而,一位人类评估者发现这个故事在关键方面是错误的。

评估者指出:“钢琴不可能在音乐会结束后被带走。”

研究人员表示,当AI模型偏离事实时,它们会产生“幻觉”。

该研究的首席作者、加州大学圣塔芭芭拉分校的人工智能专家陈昌(Chang Chen)博士告诉BBC新闻:“我们发现它们会做白日梦。”

他解释说:“当模型偏离事实时,它仍然会尽力给出听起来合理的答案,即使这个答案是虚构的。”

该研究分析了两种主要的AI模型:GPT-3.5和Llama 2。

研究人员发现,在模拟对话时,GPT-3.5模型产生幻觉的频率比Llama 2模型高出约12%。

陈博士说:“我们发现,尽管GPT-3.5更擅长处理复杂任务,但它在对话中的真实性方面表现较差。”

他补充说:“这表明,模型的能力越大,它产生幻觉的可能性就越高。”

研究人员认为,AI模型在生成看似逼真但与事实不符的文本时,是因为它们缺乏人类的“常识”和对现实世界的理解。

陈博士说:“我们认为AI模型在处理对话时,更关注于生成流畅、连贯的文本,而不是文本的真实性。”

这项研究的发现对AI在新闻报道、医疗诊断和法律咨询等高风险领域的应用提出了警示。

研究人员呼吁开发者在训练模型时,需要更多地关注事实准确性和背景理解,而不仅仅是语言的流畅性。

他们还建议,AI系统应该具备“自我修正”的能力,以便在生成信息时能够识别并纠正潜在的错误。

陈博士总结道:“AI在模仿人类对话方面取得了显著进步,但我们必须警惕它们在‘说谎’时的能力。”

他强调:“在AI日益融入我们生活的今天,理解和减轻‘幻觉’问题至关重要。”

A person interacting with a computer screen showing AI chat interface.


🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区