📢 转载信息
原文链接:https://techcrunch.com/2026/02/17/running-ai-models-is-turning-into-a-memory-game/
原文作者:Russell Brandom
当我们谈论AI基础设施的成本时,焦点通常集中在Nvidia和GPU上——但内存在图景中正变得越来越重要。随着超大规模数据中心准备投入数万亿美元的建设,过去一年中DRAM芯片的价格已上涨了约7倍。roughly 7x in the last year。
与此同时,如何编排所有这些内存,以确保正确的数据在正确的时间传递给正确的智能体,正成为一门日益重要的学科。掌握这项技术的公司将能够用更少的Token执行相同的查询,这可能就是盈亏之间的区别。
半导体分析师Doug O’Laughlin在他的Substack上对内存芯片的重要性进行了有趣的探讨,他与Weka的首席AI官Val Bercovici进行了交流。他们两位都是半导体专家,因此关注点更多地集中在芯片而非更广泛的架构上;但这对于AI软件的影响也相当深远。
我尤其对Bercovici在审视Anthropic的提示缓存文档时的这段话印象深刻:
一个明显的信号是,如果我们查看Anthropic的提示缓存定价页面。六七个月前,尤其是在Claude Code发布时,它非常简单——只是说‘使用缓存,更便宜’。现在,它变成了一本关于确切预购多少缓存写入的百科全书。你有5分钟的层级,这在行业中非常普遍,或者1小时的层级——没有更高的选项。这是一个非常重要的信号。当然,你预购的缓存写入量也会影响基于缓存读取的定价中的各种套利机会。
这里的问题是Claude将你的提示在缓存内存中保留多长时间:你可以为5分钟的窗口付费,或者为1小时的窗口支付更多费用。利用仍在缓存中的数据会便宜得多,所以如果你管理得当,可以节省一大笔费用。但有一个陷阱:你添加到查询中的每一比特新数据都可能将缓存窗口中的其他内容挤出去。
这些是复杂的问题,但其核心要点很简单:管理AI模型的内存将是未来AI的巨大组成部分。做得好的公司将脱颖而出。
在这个新领域仍有许多进步空间。去年十月,我报道了一家名为TensorMesh的初创公司,它正在处理堆栈中一个被称为缓存优化(cache-optimization)的层面。
在堆栈的其他部分也存在机会。例如,在堆栈更底层,存在数据中心如何使用其不同类型内存的问题。(这次访谈中包含了一段关于何时使用DRAM芯片而非HBM的精彩讨论,尽管这部分内容非常深入硬件细节。)在堆栈更上层,最终用户正在研究如何构建他们的模型集群以利用共享缓存。
随着公司在内存编排方面变得越来越擅长,他们将使用更少的Token,推理成本也会随之降低。与此同时,模型在处理每个Token方面变得更加高效,进一步压低了成本。随着服务器成本的下降,许多目前看起来不可行的应用将开始趋于盈利。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区