这款AI懂得答案，却并不理解问题：深度解析模型认知能力的局限性-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.sciencedaily.com/releases/2026/04/260429102035.htm

原文作者：Science China Press

数十年来，心理学家一直在争论人类思维究竟是由单一的统一理论解释，还是应该划分为注意力和记忆等独立部分。如今，人工智能（AI）正进入这一讨论领域，为探索思维运作方式提供了新途径。

AI Looks Smart but Doesn’t Understand — 一个看似模拟人类思维的前沿AI模型，实际上可能只是在死记硬背答案。新的测试显示其在真正理解方面存在困难，暴露了当前AI系统的巨大差距。

2025年7月，发表在《自然》（Nature）杂志上的一项研究引入了一个名为“Centaur”的AI模型。该模型基于标准的大语言模型构建，并利用心理学实验数据进行了优化，旨在模拟人类的认知行为。据报道，它在160项任务中表现出色，包括决策、执行控制等心理过程。这一结果引起了广泛关注，被视为AI系统能够更广泛复制人类思维的一步。

新研究引发质疑

最近发表在《国家科学开放》（National Science Open）上的一项研究挑战了上述观点。浙江大学的研究人员认为，Centaur的表面成功可能源于过拟合。换句话说，模型并没有真正理解任务，而是学会了识别训练数据中的模式，并复现预期的答案。

为了验证这一假设，研究人员创建了几个新的评估场景。在一个例子中，他们将描述具体心理任务的原始选择题提示词改为了简单的指令：“请选择选项A”。如果模型真正理解了任务，它应该始终选择选项A。然而，Centaur依然倾向于从原始数据集中选择“正确答案”。

这种行为表明，模型并没有解读问题的含义。相反，它依赖于学习到的统计模式来“猜测”答案。研究人员将其比作一个通过死记硬背考试格式、却不理解实质内容而拿到高分的学生。

这对AI评估意味着什么

这些发现凸显了在评估大语言模型能力时需要保持谨慎。虽然这些系统在拟合数据方面非常有效，但其“黑箱”特性使得人们难以知晓它们是如何得出输出结果的。这可能导致幻觉或误解等问题。严谨且多样化的测试对于判断模型是否真正具备其所展示的技能至关重要。

真正的挑战：语言理解

尽管Centaur被定位为能够模拟认知的模型，但其最大的局限性似乎在于语言理解。具体而言，它难以识别并响应问题背后的意图。研究表明，实现真正的语言理解，可能是开发能够更全面模拟人类认知AI系统的最关键挑战之一。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

这款AI懂得答案，却并不理解问题：深度解析模型认知能力的局限性

新研究引发质疑

这对AI评估意味着什么

真正的挑战：语言理解

评论区