谷歌推出基准测试检验 AI 是否“靠谱”：Gemini 3 Pro 准确率仅 69%-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

谷歌推出基准测试检验 AI 是否“靠谱”：Gemini 3 Pro 准确率仅 69%

Administrator

2025-12-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

12/15

📢 转载信息

原文链接：https://www.ithome.com/0/904/747.htm

原文作者：清源

谷歌推出基准测试检验 AI 是否“靠谱”：Gemini 3 Pro 准确率仅 69%

IT之家 12 月 13 日消息，据《商业内幕》今日报道，谷歌 DeepMind 本周发布了 FACTS 基准测试，用来检验 AI 在事实准确性方面到底靠不靠谱。

这一测试从四个维度评估模型能力，包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息，以及对图像内容的理解水平。在参测模型中，谷歌的 Gemini 3 Pro 表现最好，准确率为 69%，其他主流模型则明显落后。

这一成绩对企业同样是个警钟。虽然 AI 在生成速度和语言流畅度上优势明显，但在事实可靠性方面仍然远低于人类标准，特别是在需要专业细分知识、复杂推理或严格基于原始材料的场景中。

在金融、医疗和法律等高风险行业，即便细小的事实错误，也可能放大成严重后果。报道以《商业内幕》员工梅莉亚・拉塞尔为例，其本周梳理了律师事务所如何应对 AI 逐渐被当作法律事实来源的现实，结果并不乐观。她提到，有律师事务所的员工使用 ChatGPT 起草法律文件，结果文件中充斥虚假判例，最终律所直接解雇了该员工。

报道指出，谷歌希望通过明确模型出错的位置和方式，加快 AI 的改进速度。但眼下可以得出的结论非常清楚，AI 确实在进步，然而仍有大约三分之一的时间会犯错。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

谷歌推出基准测试检验 AI 是否“靠谱”：Gemini 3 Pro 准确率仅 69%

谷歌推出基准测试检验 AI 是否“靠谱”：Gemini 3 Pro 准确率仅 69%

评论区