📢 转载信息
原文链接:https://www.technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression/
原文作者:Caiwei Chen
中国AI公司DeepSeek发布的一款AI模型采用了新技术,这项技术有望显著提升AI的“记忆”能力。
这款光学字符识别(OCR)模型上周发布,其工作原理是通过从图像中提取文本并将其转换为机器可读的单词。这与驱动扫描应用、照片中文本翻译以及许多辅助工具的技术相同。
OCR领域已经是一个成熟的领域,拥有众多高性能系统。根据论文和一些早期评估,DeepSeek的新模型在关键基准测试上的表现与顶级模型不相上下。
但研究人员表示,该模型的主要创新在于其处理信息的方式——特别是它如何存储和检索记忆。改善AI模型的“记忆”方式可以减少它们运行所需的计算能力,从而缓解AI(日益增长的)碳足迹问题。
相关故事
目前,大多数大型语言模型将文本分解成数千个微小的单元,称为Token(词元)。这会将文本转换为模型可以理解的表示形式。然而,随着与最终用户的对话时间变长,存储和计算这些词元变得越来越昂贵。当用户长时间与AI聊天时,这种挑战会导致AI忘记它被告知过的事情,并混淆信息,这个问题被称为“上下文腐烂”(context rot)。
DeepSeek开发的新方法(已在其最新论文中发表)有助于克服这个问题。研究人员发现,与其将单词存储为词元,不如将其系统将书面信息打包成图像形式,几乎就像是为书本页面拍照一样。这使得模型能够在使用远少于文本词元的情况下保留几乎相同的信息。
从本质上讲,该OCR模型是测试这些允许更高效地将信息打包到AI模型中的新方法的试验台。
除了使用视觉词元而不是仅使用文本词元外,该模型建立在一种分层压缩类型之上,这与人类记忆衰退的方式不无相似之处:较旧或不太重要的内容以略微模糊的形式存储,以节省空间。尽管如此,论文作者认为,这种压缩内容在保持高系统效率的同时,仍然可以在后台保持可访问性。
文本词元长期以来一直是AI系统的默认构建块。使用视觉词元取而代之是非常规的,因此DeepSeek的模型迅速引起了研究人员的关注。Andrej Karpathy,前特斯拉AI主管兼OpenAI的创始成员,在X上称赞了这篇论文,称图像最终可能比文本更好地作为LLM的输入。他写道,文本词元可能是“浪费的,并且在输入端非常糟糕”。
西北大学计算机科学助理教授Manling Li表示,这篇论文为解决AI记忆中现存的挑战提供了一个新框架。Li说:“虽然使用基于图像的词元进行上下文存储的想法并非完全新颖,但这是我见过的第一个将它做到这一步并表明它可能真正有效的研究。”
这与您有何关系?
西北大学博士生Zihan Wang认为,该方法可能会为AI研究和应用开辟新的可能性,特别是在创建更有用的AI智能体方面。他相信,由于与AI的对话是连续的,这种方法可以帮助模型记住更多内容并更有效地协助用户。
该技术还可以用于为AI模型生成更多训练数据。模型开发人员目前正面临高质量文本短缺的困境。但DeepSeek的论文指出,该公司的OCR系统可以在单个GPU上每天生成超过20万页的训练数据。
然而,该模型和论文仅仅是对使用图像词元而不是文本词元进行AI记忆的早期探索。Li表示,她希望看到视觉词元不仅应用于记忆存储,还应用于推理。她说,未来的工作应该探索如何使AI的记忆以更动态的方式衰退,类似于我们能回忆起多年前改变人生的时刻,但却忘记了上周午餐吃了什么。她说,目前,即使有了DeepSeek的方法,AI的遗忘和记忆方式仍然非常线性——回忆起最近发生的事情,而不是最重要的事情。
尽管DeepSeek(总部位于中国杭州)一直试图保持低调,但它在推动AI研究前沿方面赢得了声誉。今年早些时候,该公司发布了DeepSeek-R1,这是一款开源推理模型,在性能上可与领先的西方系统相媲美,但使用的计算资源却少得多,这震惊了整个行业。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区