📢 转载信息
原文链接:https://news.mit.edu/2025/cloudian-helps-data-storage-keep-up-with-ai-revolution-0806
原文作者:Zach Winn | MIT News
Cloudian:让数据存储为AI革命保驾护航
Cloudian(由一位麻省理工学院校友共同创立)开发的可扩展存储系统,正帮助企业大规模地实现数据与AI模型和智能体之间无缝流动。
人工智能正在改变企业存储和访问数据的方式。这是因为传统的存储系统是为一次处理少量用户发出的简单命令而设计的,而如今,拥有数百万智能体的AI系统需要持续、并行地访问和处理大量数据。传统的存储系统因此增加了复杂性,数据必须经过多个层级才能到达作为AI“大脑”的图形处理单元(GPU),这减慢了AI系统的速度。
Cloudian公司由Michael Tso ’93, SM ’93和Hiroshi Ohta共同创立,致力于帮助存储系统跟上AI革命的步伐。该公司开发了一个可扩展的企业存储系统,促进数据在存储和AI模型之间无缝流动。该系统通过将并行计算应用于数据存储,将AI功能和数据整合到单一的并行处理平台上,实现了对可扩展数据集的存储、检索和处理,并实现了存储与GPU和CPU之间的直接高速传输,从而简化了流程并减少了复杂性。
Cloudian的集成存储计算平台简化了构建商业级AI工具的过程,为企业提供了能够跟上AI发展速度的存储基础。
Tso表示:“人们对AI常常忽略的一点是,它完全关乎数据。你无法通过10%或10倍的数据量获得10%的AI性能提升——你需要的是1000倍的数据量。能够以易于管理的方式存储这些数据,并且能够将计算嵌入其中,以便在数据传入时就能运行操作而无需移动数据——这才是这个行业的发展方向。”
从MIT到行业:Tso的创新之路
在20世纪90年代,Tso在麻省理工学院(MIT)攻读本科时,通过William Dally教授接触到了并行计算——一种允许多个计算同时进行的计算类型。Tso还与副教授Greg Papadopoulos一起研究了并行计算。
Tso回忆道:“那是一段非凡的时期,因为大多数学校只有一个超级计算项目在进行——而MIT有四个。”
作为研究生,Tso与MIT资深研究科学家David Clark合作,Clark是互联网早期架构的贡献者之一,特别是负责在系统之间传输数据的传输控制协议(TCP)。
Tso说:“在MIT读研究生时,我研究了大型分布式系统的断开和间歇性网络操作。很有趣的是——30年后,我今天仍在做同样的事情。”
毕业后,Tso曾在英特尔架构实验室工作,在那里他发明了黑莓(Blackberry)使用的[数据同步算法](https://www.blackberry.com/)。他还为诺基亚创建了[规范](https://www.nokia.com/),引发了手机铃声下载行业。随后,他加入了Inktomi,这是一家由Eric Brewer SM ’92, PhD ’94共同创立的初创公司,该公司开创了搜索和网络内容分发技术。
2001年,Tso与其他几位创始人(包括Joseph Norton ’93, SM ’93)一起创办了Gemini Mobile Technologies。该公司后来构建了世界上最大的移动消息系统,以应对摄像头手机产生的大量数据增长。到了21世纪末,云计算成为企业发展壮大时租用虚拟服务器的有力方式。Tso注意到,收集到的数据量增长速度远远超过了网络速度,因此他决定调整公司的发展方向。
Tso解释说:“数据在许多不同的地方产生,而这些数据有其自身的引力:移动它将耗费金钱和时间。这意味着最终形态是一个延伸到边缘设备和服务器的分布式云。你必须将云带到数据那里,而不是将数据带到云端。”
2012年,Tso将Cloudian从Gemini Mobile Technologies中正式分拆出来,重点转向帮助客户实现可扩展、分布式、云兼容的数据存储。
Tso说:“在我们公司刚起步时,我们没有预见到AI将成为边缘数据的终极用例。”
尽管Tso在MIT的研究始于二十多年前,但他认为他当时的研究与今天的行业有着密切的联系。
Tso指出,他所做的一切都仿佛在重演:“David Clark和我处理的是断开和间歇性连接的网络,这在今天的每一种边缘用例中都存在;而Dally教授则在研究非常快速、可扩展的互连技术。”他提到,Dally现在是领先的AI公司英伟达(NVIDIA)的高级副总裁兼首席科学家。“现在,看看现代英伟达的芯片架构以及它们如何进行芯片间通信,到处都有Dally的工作。与Papadopoulos教授一起,我研究了如何在不重写应用程序的情况下,使用并行计算硬件加速应用软件,这正是我现在与英伟达试图解决的问题。碰巧的是,我在MIT所做的一切都在应验。”
面向AI的存储
如今,Cloudian的平台采用对象存储架构,其中所有类型的数据——文档、视频、传感器数据——都以带有元数据的唯一对象形式存储。对象存储可以以扁平的文件结构管理海量数据集,非常适合非结构化数据和AI系统。但传统上,它无法在数据首先被复制到计算机内存系统中时直接将数据发送给AI模型,这给企业带来了延迟和能源瓶颈。
7月,Cloudian宣布已将其对象存储系统扩展了一个向量数据库,该数据库以AI模型可以直接使用的形式存储数据。在数据摄取过程中,Cloudian实时计算数据的向量形式,以支持推荐引擎、搜索和AI助手等AI工具。Cloudian还宣布与英伟达合作,使其存储系统能够直接与该AI公司的GPU协同工作。Cloudian表示,新系统实现了更快的AI操作并降低了计算成本。
Tso说:“英伟达大约一个半月前联系了我们,因为GPU只有在数据能使其保持忙碌状态时才有用。现在人们意识到,将AI移动到数据所在地比移动海量数据集要容易得多。我们的存储系统嵌入了许多AI功能,因此我们能够在数据收集和存储的地方附近对数据进行预处理和后处理。”
Cloudian正在帮助全球约1000家公司(包括大型制造商、金融服务提供商、医疗保健组织和政府机构)从其数据中获取更多价值。
例如,Cloudian的存储平台正在帮助一家大型汽车制造商利用AI来确定其制造机器人的维护时间。Cloudian还与美国国家医学图书馆合作存储研究文章和专利,并与美国国家癌症数据库合作存储肿瘤的DNA序列——这些都是AI模型可以处理的丰富数据集,有助于研究开发新疗法或获得新见解。
Tso说:“GPU是非常出色的赋能者。摩尔定律使计算量每两年翻一番,但GPU能够在芯片上并行化操作,因此你可以将GPU联网,从而打破摩尔定律。这种规模将AI推向了新的智能水平,但要让GPU高效工作,就必须以它们计算的速度向它们提供数据——而做到这一点的唯一方法就是消除它们与数据之间的所有层级。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区