目 录CONTENT

文章目录

谷歌推出基准测试检验 AI 是否“靠谱”:Gemini 3 Pro 准确率仅 69%

Administrator
2025-12-15 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.ithome.com/0/904/747.htm

原文作者:清源


谷歌推出基准测试检验 AI 是否“靠谱”:Gemini 3 Pro 准确率仅 69%

IT之家 12 月 13 日消息,据《商业内幕》今日报道,谷歌 DeepMind 本周发布了 FACTS 基准测试,用来检验 AI 在事实准确性方面到底靠不靠谱。

这一测试从四个维度评估模型能力,包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息,以及对图像内容的理解水平。在参测模型中,谷歌的 Gemini 3 Pro 表现最好,准确率为 69%,其他主流模型则明显落后。

这一成绩对企业同样是个警钟。虽然 AI 在生成速度和语言流畅度上优势明显,但在事实可靠性方面仍然远低于人类标准,特别是在需要专业细分知识、复杂推理或严格基于原始材料的场景中

在金融、医疗和法律等高风险行业,即便细小的事实错误,也可能放大成严重后果。报道以《商业内幕》员工梅莉亚・拉塞尔为例,其本周梳理了律师事务所如何应对 AI 逐渐被当作法律事实来源的现实,结果并不乐观。她提到,有律师事务所的员工使用 ChatGPT 起草法律文件,结果文件中充斥虚假判例,最终律所直接解雇了该员工。

报道指出,谷歌希望通过明确模型出错的位置和方式,加快 AI 的改进速度。但眼下可以得出的结论非常清楚,AI 确实在进步,然而仍有大约三分之一的时间会犯错




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区