目 录CONTENT

文章目录

NVIDIA Nemotron 3 Super 助推智能体 AI 吞吐量提升 5 倍

Administrator
2026-03-12 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/

原文作者:Kari Briski


今日发布的 NVIDIA Nemotron 3 Super 是一款拥有 1200 亿参数的开源模型,其中 120 亿参数可激活,专为大规模运行复杂的智能体 AI 系统而设计。该模型现已可用,结合了先进的推理能力,能够高效且高精度地完成自主代理的任务。

AI 原生公司:Perplexity 为其用户提供 Nemotron 3 Super,用于搜索,并作为 Computer 中 20 个协调模型之一。提供软件开发代理的公司,如 CodeRabbit、Factory 和 Greptile,正在将该模型与专有模型集成到其 AI 代理中,以在降低成本的同时提高准确性。生命科学和前沿 AI 组织,如 Edison Scientific 和 Lila Sciences,将利用该模型为其代理提供支持,用于深入的文献搜索、数据科学和分子理解。

企业软件平台:行业领导者,如 Amdocs、Palantir、Cadence、Dassault Systèmes 和 Siemens,正在部署和定制该模型,以实现电信、网络安全、半导体设计和制造领域的自动化工作流程。

随着公司从聊天机器人迈向多代理应用,它们会遇到两个限制。

第一个是上下文爆炸。多代理工作流程会生成比标准聊天多 15 倍的 token,因为每次交互都需要重新发送完整的历史记录,包括工具输出和中间推理。

在长期任务中,这种大量的上下文会增加成本,并可能导致目标漂移,即代理会偏离原始目标。

第二个是思考成本。复杂的代理必须在每一步进行推理,但使用大型模型来处理每个子任务会使多代理应用过于昂贵且响应缓慢,不适合实际应用。

Nemotron 3 Super 拥有 100 万 token 的上下文窗口,使代理能够将整个工作流程的状态保存在内存中,防止目标漂移。

Nemotron 3 Super 设定了新的标准,在效率和开放性方面登上 Artificial Analysis 的榜首,在同等规模的模型中达到了领先的准确性。

该模型还为 NVIDIA AI-Q 研究代理提供了动力,使其在 DeepResearch Bench 和 DeepResearch Bench II 排行榜上名列第一。这些基准测试衡量 AI 系统在大量文档中进行彻底、多步骤研究的能力,同时保持推理的一致性。

混合架构

Nemotron 3 Super 采用混合专家混合(MoE)架构,结合了三项主要创新,与上一代 Nemotron Super 模型相比,可提供高达 5 倍的吞吐量和高达 2 倍的准确性。

  • 混合架构:Mamba 层提供 4 倍的内存和计算效率,而 Transformer 层则驱动高级推理。
  • MoE:在其 1200 亿参数中,只有 120 亿参数在推理时激活。
  • 潜在 MoE:一种新技术,通过激活四个专家来提高准确性,其成本仅为一个专家的成本,即可在推理时生成下一个 token。
  • 多 Token 预测:同时预测多个未来单词,从而实现 3 倍的推理速度。

在 NVIDIA Blackwell 平台上,该模型以 NVFP4 精度运行。这降低了内存需求,并将推理速度比 NVIDIA Hopper 上的 FP8 快 4 倍,而准确性没有损失。

开放的权重、数据和配方

NVIDIA 以宽松的许可证发布了 Nemotron 3 Super 的开放权重。开发人员可以在工作站、数据中心或云端进行部署和定制。

该模型是在使用前沿推理模型生成的合成数据上训练的。NVIDIA 发布了完整的 metodology,包括超过 10 万亿 token 的预训练和后训练数据集、15 个用于强化学习的训练环境以及评估配方。研究人员还可以使用 NVIDIA NeMo 平台对模型进行微调或构建自己的模型。

在智能体系统中的应用

Nemotron 3 Super 旨在处理多代理系统内部的复杂子任务。

软件开发代理可以一次将整个代码库加载到上下文中,从而实现端到端的代码生成和调试,而无需进行文档分段。

在金融分析中,它可以加载数千页的报告到内存中,无需在长对话中重复推理,从而提高效率。

Nemotron 3 Super 具有高精度的工具调用功能,可确保自主代理可靠地导航庞大的函数库,从而在网络安全等高风险环境中防止执行错误。

可用性

NVIDIA Nemotron 3 Super 是 Nemotron 3 系列的一部分,可以通过 build.nvidia.comPerplexityOpenRouterHugging Face 访问。Dell Technologies 将该模型引入 Hugging Face 上的 Dell Enterprise Hub,针对 Dell AI Factory 上的本地部署进行优化,推动多代理 AI 工作流程的发展。HPE 也将 NVIDIA Nemotron 引入其代理中心,以帮助确保智能体 AI 的可扩展企业采用。

企业和开发人员可以通过多个合作伙伴部署该模型:

该模型被打包成一个 NVIDIA NIM 微服务,可以从本地系统部署到云端。

通过订阅 NVIDIA AI 新闻、加入社区,并在 LinkedIn、Instagram、X 和 Facebook 上关注 NVIDIA AI,随时了解智能体 AI、NVIDIA Nemotron 及更多信息。

探索自定进度的视频教程和直播




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区