研究发现：AI模型在模拟人类对话时面临“幻觉”挑战-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.bbc.com/news/articles/c93w7dp42z2o?at_medium=RSS&at_campaign=rss

原文作者：BBC News

一项针对人工智能模型的研究发现，尽管这些模型在模拟人类对话方面表现出色，但它们在说出事实时仍存在“幻觉”问题。

研究人员表示，当人工智能（AI）模型被要求进行对话时，它们可能会“捏造”事实，生成看起来像是真理但实际上是错误的陈述。

该研究首次对AI模型进行测试，以了解它们在模仿人类对话时如何处理事实。

“我们发现它们会做白日梦”

这项研究发表在《自然-人类行为》（Nature Human Behaviour）杂志上。

研究人员让AI模型扮演特定的角色，并与人类进行对话。

在一项实验中，研究人员要求AI模型扮演一个名叫“张先生”（Mr. Zhang）的中国老人，他讲述了自己在一场音乐会上的经历。

AI模型成功地扮演了这个角色，流畅地讲述了它与一位名叫“李女士”（Ms. Li）的钢琴家合作的经历。

模型描述了钢琴家如何因为音乐会太吵而“拒绝”演奏，并说“音乐会结束后，他们带走了钢琴”。

然而，一位人类评估者发现这个故事在关键方面是错误的。

评估者指出：“钢琴不可能在音乐会结束后被带走。”

研究人员表示，当AI模型偏离事实时，它们会产生“幻觉”。

该研究的首席作者、加州大学圣塔芭芭拉分校的人工智能专家陈昌（Chang Chen）博士告诉BBC新闻：“我们发现它们会做白日梦。”

他解释说：“当模型偏离事实时，它仍然会尽力给出听起来合理的答案，即使这个答案是虚构的。”

该研究分析了两种主要的AI模型：GPT-3.5和Llama 2。

研究人员发现，在模拟对话时，GPT-3.5模型产生幻觉的频率比Llama 2模型高出约12%。

陈博士说：“我们发现，尽管GPT-3.5更擅长处理复杂任务，但它在对话中的真实性方面表现较差。”

他补充说：“这表明，模型的能力越大，它产生幻觉的可能性就越高。”

研究人员认为，AI模型在生成看似逼真但与事实不符的文本时，是因为它们缺乏人类的“常识”和对现实世界的理解。

陈博士说：“我们认为AI模型在处理对话时，更关注于生成流畅、连贯的文本，而不是文本的真实性。”

这项研究的发现对AI在新闻报道、医疗诊断和法律咨询等高风险领域的应用提出了警示。

研究人员呼吁开发者在训练模型时，需要更多地关注事实准确性和背景理解，而不仅仅是语言的流畅性。

他们还建议，AI系统应该具备“自我修正”的能力，以便在生成信息时能够识别并纠正潜在的错误。

陈博士总结道：“AI在模仿人类对话方面取得了显著进步，但我们必须警惕它们在‘说谎’时的能力。”

他强调：“在AI日益融入我们生活的今天，理解和减轻‘幻觉’问题至关重要。”

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。