目 录CONTENT

文章目录

研究人员发现ChatGPT 4o出现“视觉欺骗”问题:图像中的文字解读出错

Administrator
2025-11-26 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://m.cnbeta.com.tw/view/1537982.htm

原文作者:cnBeta.COM


虽然OpenAI的最新多模态大模型 GPT-4o 带来了令人惊叹的体验,但其视觉能力似乎存在一个有趣的漏洞,被称为“视觉欺骗”(Visual Deception)问题。

研究人员发现,GPT-4o 尽管在理解图像内容方面表现出色,但在识别图像中嵌入的文本时却经常出错,尤其是在图像设计为故意误导模型时。

研究表明,当图像中包含精心构造的文本信息时,即使人类可以轻松识别,GPT-4o 也可能无法正确提取,甚至产生完全错误的解读。这表明,尽管模型在整体感知上取得了进步,但在对齐文本与视觉信息方面仍存在挑战。

具体来说,研究人员通过向模型展示一些包含混淆性文字或误导性布局的图像,发现模型容易被视觉上的“欺骗”所影响,导致其输出的文本信息与图像的实际内容不符。

这种情况在一些复杂的图形界面或标注中尤为明显,模型可能混淆不同区域的文本含义,或者忽略特定区域的文本,从而产生不准确的响应。

这一发现对于评估和部署多模态AI系统具有重要意义。它提醒开发者,在构建需要依赖视觉文本理解的应用时,必须考虑这类“视觉欺骗”的鲁棒性问题,以确保AI系统的安全性和可靠性。

GPT-4o 的视觉欺骗问题提示我们,尽管当前的多模态模型功能强大,但它们在处理图像中的特定结构化信息(如文字)时,仍需进一步的优化和验证,特别是在面对对抗性样本时。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区