研究人员发现ChatGPT 4o出现“视觉欺骗”问题：图像中的文字解读出错-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

研究人员发现ChatGPT 4o出现“视觉欺骗”问题：图像中的文字解读出错

Administrator

2025-11-26 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

11/26

📢 转载信息

原文链接：https://m.cnbeta.com.tw/view/1537982.htm

原文作者：cnBeta.COM

虽然OpenAI的最新多模态大模型 GPT-4o 带来了令人惊叹的体验，但其视觉能力似乎存在一个有趣的漏洞，被称为“视觉欺骗”（Visual Deception）问题。

研究人员发现，GPT-4o 尽管在理解图像内容方面表现出色，但在识别图像中嵌入的文本时却经常出错，尤其是在图像设计为故意误导模型时。

研究表明，当图像中包含精心构造的文本信息时，即使人类可以轻松识别，GPT-4o 也可能无法正确提取，甚至产生完全错误的解读。这表明，尽管模型在整体感知上取得了进步，但在对齐文本与视觉信息方面仍存在挑战。

具体来说，研究人员通过向模型展示一些包含混淆性文字或误导性布局的图像，发现模型容易被视觉上的“欺骗”所影响，导致其输出的文本信息与图像的实际内容不符。

这种情况在一些复杂的图形界面或标注中尤为明显，模型可能混淆不同区域的文本含义，或者忽略特定区域的文本，从而产生不准确的响应。

这一发现对于评估和部署多模态AI系统具有重要意义。它提醒开发者，在构建需要依赖视觉文本理解的应用时，必须考虑这类“视觉欺骗”的鲁棒性问题，以确保AI系统的安全性和可靠性。

GPT-4o 的视觉欺骗问题提示我们，尽管当前的多模态模型功能强大，但它们在处理图像中的特定结构化信息（如文字）时，仍需进一步的优化和验证，特别是在面对对抗性样本时。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

研究人员发现ChatGPT 4o出现“视觉欺骗”问题：图像中的文字解读出错