目 录CONTENT

文章目录

利用GPU加速存储赋能企业AI数据平台,交付可供AI使用的企业级数据

Administrator
2025-11-19 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://blogs.nvidia.com/blog/ai-data-platform-gpu-accelerated-storage/

原文作者:Jacob Liberman


AI代理有潜力成为自动化复杂任务的不可或缺的工具。但将代理投入生产仍然充满挑战。

根据Gartner的说法,“大约40%的AI原型能够进入生产阶段,参与者报告称数据可用性和质量是AI采用的首要障碍1

就像人类工作者一样,AI代理需要安全、相关、准确且最新的数据才能提供业务价值——这正是业界目前所称的“AI就绪数据”(AI-ready data)。

使企业数据实现AI就绪面临着独特的挑战。Gartner估计,“文档和多媒体文件等非结构化数据占组织数据总量的70%到90%,由于其体量、多样性和缺乏连贯的结构,带来了独特的治理挑战。2”非结构化数据源包括电子邮件、PDF、视频、音频剪辑和演示文稿。

一类新兴的GPU加速数据和存储基础设施——AI数据平台——能够快速、安全地将非结构化数据转化为AI就绪数据。

什么是AI就绪数据?

AI就绪数据可以被AI训练、微调和检索增强生成(RAG)流程直接消费,无需额外的准备工作。

使非结构化数据实现AI就绪涉及以下步骤:

  • 从多样化的来源收集和整理数据
  • 应用元数据以实现数据管理和治理
  • 将源文档划分为语义相关的块(chunks)
  • 将这些块嵌入为向量,以便于高效存储、搜索和检索

在非结构化数据实现AI就绪之前,企业无法充分释放其AI投资的全部价值。

为什么让数据实现AI就绪很困难?

对于大多数企业而言,使非结构化数据实现AI就绪仍然是一个重大挑战,原因如下:

  • 数据复杂性:一个典型的企业拥有数百个来自数十种格式和模态(包括视频、音频、文本和图像)的不同数据源。这些数据分散在不同的存储孤岛中。
  • 数据速度(Data velocity):企业数据的量正在爆炸式增长。预测显示,全球存储数据将在未来四年内翻一番。随着企业采用实时流媒体传感器(如摄像头馈送),数据变化的速度也在加快。
  • 数据蔓延和数据漂移(Data sprawl and data drift):频繁的数据复制和转换会带来成本和安全风险。随着时间的推移,AI表示(如文本块和嵌入)的内容或权限会偏离“真实来源”文档。此外,随着聊天机器人和代理数量的激增,数据安全风险也在增加。

总而言之,这些因素迫使企业数据科学家将大部分时间花费在定位、清理和组织数据上——留给识别有价值见解的时间就更少了。

AI数据平台——新型企业数据和存储基础设施

AI数据平台是一种新兴的GPU加速数据和存储基础设施,它使企业数据实现AI就绪。

通过将GPU加速直接嵌入到数据路径中,AI数据平台将数据转换为AI管道所需的格式,这是一个对用户不可见的后台操作。

数据在原位(in place)准备,最大限度地减少不必要的复制和相关的安全风险。

通过将数据准备工作整合为存储基础设施的核心能力,AI数据平台确保了数据的准确性和安全性。对“真实来源”文档的任何修改——包括编辑或权限更改——都会立即传达给其关联的向量嵌入。

AI数据平台的主要优势包括:

  • 更快的价值实现时间:企业无需从头开始设计、构建和优化AI数据管道。AI数据平台开箱即用地提供了一个集成化的、最先进的AI数据管道。
  • 减少数据漂移:通过近乎实时地持续摄取、嵌入和索引企业数据,AI数据平台缩短了洞察时间并最大限度地减少了数据漂移。
  • 提高数据安全性:由于“真实来源”文档存储在AI数据平台中,对其内容或权限的任何更改都会立即传播给使用它们的人工智能应用程序。
  • 简化的数据治理:在原位准备数据减少了影子副本的扩散,影子副本会破坏访问控制、可追溯性和合规性。
  • 提高GPU利用率:在AI数据平台中,GPU容量是根据所管理数据的量、类型和变化速度来确定的。GPU容量随数据扩展,确保GPU不会为数据准备任务过度或不足配置。

NVIDIA AI数据平台

AI正在改变每个行业——而AI数据平台是生成式AI时代企业存储的自然演进,它们从被动的容器转变为提供业务价值的主动引擎。

通过将GPU加速集成到数据路径中,AI数据平台能够快速、安全地使用AI就绪数据来激活企业的AI代理。

NVIDIA AI数据平台参考设计整合了NVIDIA RTX PRO 6000 Blackwell服务器版GPU、NVIDIA BlueField-3 DPU,以及基于NVIDIA Blueprints的集成AI数据处理管道。

NVIDIA AI数据平台设计已被思科(Cisco)、Cloudian、DDN、戴尔科技(Dell Technologies)、日立范立通(Hitachi Vantara)、HPE、IBM、NetApp、Pure Storage、VAST Data和WEKA等领先的AI基础设施和存储提供商所采用——每家公司都在该设计的基础上添加了自己独特的差异化和创新。

欲了解更多关于NVIDIA AI数据平台和AI就绪数据的信息,请收听此NVIDIA AI播客:

1Gartner, How to Design an Effective Data Quality Operating Model,作者:Sue Waite 和 Melody Chien,2025年7月15日

2Gartner, Governing Unstructured Data for AI Readiness: A Strategic Roadmap,作者:Melody Chien,2025年8月14日

GARTNER 是 Gartner, Inc.和/或其附属公司在美国和国际上的注册商标和服务标记,在此处经许可使用。保留所有权利。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区