📢 转载信息
原文链接:https://www.technologyreview.com/2025/10/29/1126932/deepseek-ocr-visual-compression/
原文作者:Caiwei Chen
一家中国AI公司DeepSeek发布的AI模型采用了可能显著提高AI“记忆力”的新技术。
上周发布的这款光学字符识别(OCR)模型通过从图像中提取文本并将其转换为机器可读的单词来工作。这项技术与驱动扫描应用、照片中文本翻译和许多辅助功能的技术相同。
OCR 已经是成熟领域,拥有众多高性能系统,根据论文和一些早期评估,DeepSeek 的新模型在关键基准测试上的表现与顶级模型不相上下。
但研究人员表示,该模型的主要创新在于其处理信息的方式——特别是存储和检索记忆的方式。改善AI模型“记忆”信息的方式可以减少其运行所需的计算能力,从而缓解AI(日益增长的)碳足迹。
目前,大多数大型语言模型将文本分解成数千个称为“令牌”(tokens)的微小单元。这会将文本转换为模型可以理解的表示形式。然而,随着与终端用户的对话越来越长,存储和计算这些令牌的成本会迅速增加。当用户长时间与AI聊天时,这种挑战可能导致AI忘记它被告知的内容并混淆信息,这个问题有些人称之为“上下文衰减”(context rot)。
DeepSeek 开发的新方法(已在其最新论文中发表)可能有助于克服这一问题。研究人员发现,它的系统不是将单词存储为令牌,而是将书面信息打包成图像形式,几乎就像为书本的页面拍照一样。这使得模型在使用的令牌少得多的情况下,保留了几乎相同的信息。
从本质上讲,该 OCR 模型是这些新方法的试验台,这些方法允许更有效地将信息打包到AI模型中。
除了使用视觉令牌而不仅仅是文本令牌之外,该模型还建立在一种分层压缩类型之上,这与人类记忆的衰退方式相似:较旧或不那么重要的内容以略微模糊的形式存储,以节省空间。尽管如此,论文作者认为,这种压缩后的内容在保持高系统效率的同时,仍然可以在后台保持可访问性。
文本令牌长期以来一直是AI系统的默认构建块。使用视觉令牌取而代之的做法非常规,因此,DeepSeek 的模型正迅速引起研究人员的关注。前特斯拉AI主管、OpenAI创始成员Andrej Karpathy在X上称赞了这篇论文,表示图像最终可能比文本更适合作为LLM的输入。他写道,文本令牌可能“效率低下,输入效果极差”。
西北大学计算机科学助理教授Manling Li表示,该论文提供了一个解决现有AI记忆挑战的新框架。Li说:“虽然使用基于图像的令牌进行上下文存储的想法并非全新,但这是我见过的第一个将其推向如此深入并表明它可能确实有效的研究。”
以下是根据AI分析,此故事可能对您重要的原因。这是一个Beta功能,AI可能会出现幻觉——情况可能变得很奇怪。
西北大学博士生Zihan Wang表示,该方法可能为AI研究和应用开辟新的可能性,特别是在创建更有用的AI代理方面。他认为,由于与AI的对话是连续的,这种方法可以帮助模型记住更多内容并更有效地帮助用户。
该技术还可用于为AI模型生成更多训练数据。模型开发人员目前正面临优质文本短缺的问题。但DeepSeek的论文称,该公司的OCR系统可以在单个GPU上每天生成超过20万页的训练数据。
然而,该模型和论文仅仅是对使用图像令牌而非文本令牌进行AI记忆探索的早期阶段。Li表示,她希望看到视觉令牌不仅应用于记忆存储,还应用于推理。她说,未来的工作应探索如何以更动态的方式使AI的记忆褪色,类似于我们能回忆起多年前改变人生的时刻,却忘记了昨天的午餐吃了什么。她说,目前,即使使用DeepSeek的方法,AI的遗忘和记忆方式仍然非常线性——回忆起最近发生的事情,但不一定是最近发生的最重要的事情。
DeepSeek 位于中国杭州,尽管它试图保持低调,但它在推动AI研究前沿方面赢得了声誉。该公司在今年早些时候发布了DeepSeek-R1,这是一款开源推理模型,在性能上与领先的西方系统相媲美,而使用的计算资源却少得多,这震惊了整个行业。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区