📢 转载信息
原文链接:https://blogs.nvidia.com/blog/s3-compatible-ai-storage/
原文作者:John Kim
当今的AI工作负载数据密集,比以往任何时候都需要更具可扩展性和更经济的存储。预计到2028年,企业每年将产生近400艾字节(zettabytes)的数据,其中90%是音频、视频、PDF、图像等非结构化数据。
这种大规模的数据增长,加上在本地基础架构和云之间进行数据可移植性的需求,正促使AI行业评估新的存储选项。
RDMA for S3-compatible storage(面向S3兼容存储的RDMA)应运而生。它使用远程直接内存访问(RDMA)来加速基于S3应用程序编程接口(API)的存储协议,并针对AI数据和工作负载进行了优化。
对象存储长期以来一直被用作归档、备份、数据湖和活动日志等不需要最快性能的应用的低成本存储选项。虽然一些客户已经将对象存储用于AI训练,但他们渴望在快节奏的AI世界中获得更高的性能。
该解决方案整合了NVIDIA网络,通过使用RDMA进行对象数据传输,实现了更快、更高效的对象存储。
对于客户而言,与传统的用于对象存储的网络传输协议TCP相比,这意味着每TB存储的更高吞吐量、每瓦更高的吞吐量、更低的每TB成本以及显著更低的延迟。
其他好处包括:
- 成本更低:最终用户可以降低其AI存储的成本,这也可以加快项目审批和实施。
- 工作负载可移植性:客户可以使用通用的存储API,在本地部署和云服务提供商及新云环境中,未经修改地运行其AI工作负载。
- 存储加速:为AI训练和推理提供更快的数据访问和性能,包括AI工厂中的向量数据库和键值缓存存储。
- AI数据平台解决方案可以获得更快的存储对象存储访问权限,以及更多用于内容索引和检索的元数据。
- 降低CPU利用率:面向S3兼容存储的RDMA在数据传输时不使用主机CPU,这意味着关键的CPU资源可以用于为客户提供AI价值。
NVIDIA已经开发了RDMA客户端和服务器库来加速对象存储。存储合作伙伴已将这些服务器库集成到他们的存储解决方案中,从而为基于S3 API的对象存储启用RDMA数据传输,从而实现AI工作负载更快的数据传输和更高的效率。
面向S3兼容存储的RDMA客户端库运行在AI GPU计算节点上。这使得AI工作负载能够比传统的TCP访问快得多地访问对象存储数据——从而提高了AI工作负载性能和GPU利用率。
虽然初始库是针对NVIDIA GPU和网络的优化,但该架构本身是开放的,因为其他供应商和客户可以为客户端库做出贡献并将其集成到他们的软件中。他们还可以编写自己的软件来支持和使用面向S3兼容存储的RDMA API。
标准化、可用性和采用
NVIDIA正与合作伙伴共同努力,使面向S3兼容存储的RDMA标准化。
几家主要的 букмекерская 合作伙伴已经开始采用这项新技术。Cloudian、戴尔科技集团(Dell Technologies)和HPE都在将其面向S3兼容存储的RDMA库集成到他们的高性能对象存储产品中:Cloudian HyperStore、戴尔的ObjectScale以及HPE的Alletra Storage MP X10000。
Cloudian首席营销官Jon Toor表示:“对象存储是AI可扩展数据管理的未来。Cloudian正与NVIDIA一起引领标准化面向S3兼容存储的RDMA的努力,该技术能够实现更快、更高效的对象存储,有助于扩展AI解决方案并降低存储成本。标准化以及Cloudian的S3 API兼容性将无缝地为本地和云端成千上万的现有基于S3的应用和工具带来可扩展性和性能。”
戴尔科技集团存储、数据和网络弹性首席技术官兼副总裁Rajesh Rajaraman表示:“AI工作负载要求存储性能达到规模化水平,数千个GPU同时读写数据,而拥有本地和云端多个AI工厂的企业客户,则希望实现对象数据的AI工作负载可移植性。戴尔科技集团与NVIDIA合作,将面向S3兼容存储的RDMA加速集成到Dell ObjectScale中,这款对象存储提供了无与伦比的可扩展性、性能,并通过端到端RDMA显著降低了延迟。最新的Dell ObjectScale软件更新将为AI工厂和AI数据平台提供出色的存储基础。”
HPE存储高级副总裁兼总经理Jim O’Dorisio表示:“随着AI工作负载的规模和强度持续增长,NVIDIA在面向S3兼容存储API和库方面的创新正在重新定义大规模数据移动的方式。HPE与NVIDIA紧密合作,构建了一个可以加速吞吐量、降低延迟并降低总体拥有成本的解决方案。随着面向S3兼容存储的RDMA功能现已集成到HPE Alletra Storage MP X10000中,我们在面向非结构化和AI驱动工作负载的智能、可扩展存储方面的领先地位得到了进一步拓展。”
面向S3兼容存储的NVIDIA RDMA库现已向部分合作伙伴提供,预计将于一月份通过NVIDIA CUDA Toolkit全面发布。此外,了解更多关于NVIDIA新对象存储认证的信息,该认证是NVIDIA认证存储计划的一部分。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区