目 录CONTENT

文章目录

在 Amazon Bedrock 上运行 NVIDIA Nemotron 3 Super

Administrator
2026-03-20 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/run-nvidia-nemotron-3-super-on-amazon-bedrock/

原文作者:Aris Tsakpinis and Abdullahi Olaoye


NVIDIA Nemotron 3 Super现已作为全托管、无服务器模型在Amazon Bedrock上可用,加入了已经可以在Amazon Bedrock环境中使用的Nemotron Nano模型

通过Amazon Bedrock上的NVIDIA Nemotron开放模型,您可以加速创新并实现切实的业务价值,而无需管理基础设施的复杂性。您可以使用Amazon Bedrock的全托管推理功能,通过其广泛的特性和工具,为您的生成式AI应用程序提供Nemotron的强大支持。

本文将探讨Nemotron 3 Super模型的技术特性,并讨论潜在的应用用例。同时,它还将提供技术指导,帮助您在Amazon Bedrock环境中开始使用此模型构建生成式AI应用程序。

关于Nemotron 3 Super

Nemotron 3 Super是一款混合专家(MoE)模型,在多智能体应用和专用智能体AI系统中具有领先的计算效率和准确性。该模型以开放权重、数据集和配方发布,开发者可以根据自身需求进行定制、改进和部署,以增强隐私和安全性。

模型概述:

  • 架构:
    • 采用混合Transformer-Mamba架构的MoE。
    • 支持token预算,可在生成最少推理token的情况下提供更高的准确性。
  • 准确性:
    • 在其尺寸类别中具有最高的吞吐量效率,比上一代Nemotron Super模型高出5倍。
    • 在领先的开放模型中,其推理和智能体任务的准确性领先,比上一代版本高出2倍。
    • 在AIME 2025、Terminal-Bench、SWE Bench验证和多语言RULER等领先基准测试中均 đạt high accuracy。
    • 通过多环境RL训练,该模型在10多个环境中通过NVIDIA NeMo达到了领先的准确性。
  • 模型大小:120B,其中12B为活动参数
  • 上下文长度:高达256K tokens
  • 模型输入:文本
  • 模型输出:文本
  • 语言:英语、法语、德语、意大利语、日语、西班牙语和中文

Latent MoE

Nemotron 3 Super采用Latent MoE(潜在混合专家)技术,专家在输出投影回token空间之前,在共享的潜在表示上进行操作。这种方法允许模型以相同的推理成本调用4倍的专家,从而能够更好地针对细微的语义结构、领域抽象或多跳推理模式进行优化。

Multi-token Prediction (MTP)

MTP(多token预测)使模型能够在单次前向传播中预测多个未来token,从而显著提高长推理序列和结构化输出的吞吐量。对于规划、轨迹生成、扩展链式思考或代码生成,MTP可以降低延迟并提高智能体的响应速度。

要了解有关Nemotron 3 Super架构及其训练方式的更多信息,请参阅《Introducing Nemotron 3 Super: an Open Hybrid Mamba Transformer MoE for Agentic Reasoning》

NVIDIA Nemotron 3 Super用例

Nemotron 3 Super有助于为不同行业提供各种用例。一些用例包括:

  • 软件开发:协助代码摘要等任务。
  • 金融:通过提取数据、分析收入模式和检测欺诈操作来加速贷款处理,这有助于降低周期时间和风险。
  • 网络安全:可用于分类问题、执行深入的恶意软件分析以及主动搜寻安全威胁。
  • 搜索:有助于理解用户意图,以激活正确的智能体。
  • 零售:通过实时、个性化的产品推荐和支持,帮助优化库存管理并增强店内服务。
  • 多智能体工作流:协调特定任务的智能体——规划、工具使用、验证和领域执行——以自动化复杂的、端到端的业务流程。

开始使用Amazon Bedrock上的NVIDIA Nemotron 3 Super。请完成以下步骤,在Amazon Bedrock中测试NVIDIA Nemotron 3 Super:

  1. 导航到Amazon Bedrock控制台,然后从左侧菜单(“测试”部分下)选择Chat/Text playground
  2. 在playground的左上角选择Select model
  3. 从类别列表中选择NVIDIA,然后选择NVIDIA Nemotron 3 Super
  4. 选择Apply加载模型。

完成上述步骤后,您可以立即测试模型。为了真正展示Nemotron 3 Super的能力,我们将超越简单的语法,让它处理一个复杂的工程挑战。高推理模型在“系统级”思考方面表现出色,它们必须权衡架构、并发和分布式状态管理。

让我们使用以下提示来设计一个全球分布式服务:

“使用Python设计一个分布式速率限制服务,该服务必须支持跨多个地理区域的每秒100,000个请求。

1. 提供一个高层架构策略(例如,Token Bucket vs. Fixed Window),并为全球规模选择一个理由。 2. 使用Redis作为后端存储,编写一个线程安全的实现。 3. 解决多个实例更新同一计数器时的“竞态条件”问题。 4. 包括一个模拟应用程序与Redis之间网络延迟的pytest套件。”

此提示要求模型充当一名高级分布式系统工程师——思考权衡、生成线程安全的 कोड、预测故障模式,并在单个连贯的响应中通过实际测试验证一切。

使用AWS CLI和SDK

您可以使用模型ID nvidia.nemotron-super-3-120b 以编程方式访问该模型。该模型通过AWS Command Line Interface (AWS CLI)AWS SDK支持 InvokeModelConverse API,模型ID为 nvidia.nemotron-super-3-120b。此外,它还支持Amazon Bedrock兼容OpenAI的SDK API。

使用以下命令通过终端直接调用模型,使用AWS Command Line Interface (AWS CLI)和InvokeModel API

aws bedrock-runtime invoke-model \
 --model-id nvidia.nemotron-super-3-120b \
 --region us-west-2 \
 --body '{"messages": [{"role": "user", "content": "Type_Your_Prompt_Here"}], "max_tokens": 512, "temperature": 0.5, "top_p": 0.9}' \
 --cli-binary-format raw-in-base64-out \
 invoke-model-output.txt

如果您想通过AWS SDK for Python (Boto3)调用模型请使用以下脚本将提示发送到模型,本例中使用了Converse API:

import boto3
from botocore.exceptions import ClientError

# Create a Bedrock Runtime client in the AWS Region you want to use.
client = boto3.client("bedrock-runtime", region_name="us-west-2")

# Set the model ID
model_id = "nvidia.nemotron-super-3-120b"

# Start a conversation with the user message.
user_message = "Type_Your_Prompt_Here"
conversation = [
    {
        "role": "user",
        "content": [{"text": user_message}],
    }
]

try:
    # Send the message to the model using a basic inference configuration.
    response = client.converse(
        modelId=model_id,
        messages=conversation,
        inferenceConfig={
            "maxTokens": 512,
            "temperature": 0.5,
            "topP": 0.9
        },
    )

    # Extract and print the response text.
    response_text = response["output"]["message"]["content"][0]["text"]
    print(response_text)

except (ClientError, Exception) as e:
    print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
    exit(1)

要通过Amazon Bedrock的OpenAI兼容ChatCompletions端点调用模型,您可以使用OpenAI SDK按以下方式进行:

# Import OpenAI SDK
from openai import OpenAI
import os

# Set environment variables
os.environ["OPENAI_API_KEY"] = ""
os.environ["OPENAI_BASE_URL"] = "https://bedrock-runtime..amazon.com/openai/v1"

# Set the model ID
model_id = "nvidia.nemotron-super-3-120b"

# Set prompts
system_prompt = “Type_Your_System_Prompt_Here”
user_message = "Type_Your_User_Prompt_Here"

# Use ChatCompletionsAPI
response = client.chat.completions.create(
    model= model _ID,
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_message}
    ],
    temperature=0,
    max_completion_tokens=1000
)

# Extract and print the response text
print(response.choices[0].message.content)

结论

在本篇文章中,我们展示了如何开始在Amazon Bedrock上使用NVIDIA Nemotron 3 Super,以构建下一代智能体AI应用程序。通过将该模型的先进Hybrid Transformer-Mamba架构和Latent MoE与Amazon Bedrock的全托管、无服务器基础设施相结合,组织现在可以在不进行繁重后端管理的情况下,大规模部署高性能、高效的应用程序。准备好看看该模型能为您的特定工作流带来什么了吗?

  • 立即尝试:前往Amazon Bedrock控制台,在模型playground中体验NVIDIA Nemotron 3 Super。
  • 构建:探索AWS SDK,将Nemotron 3 Super集成到您现有的生成式AI管道中。

关于作者

Aris Tsakpinis

Aris Tsakpinis是生成式AI领域的高级专家解决方案架构师,专注于Amazon Bedrock上的开放权重模型以及更广泛的生成式AI开源环境。在他的职业生涯之外,他正在雷根斯堡大学攻读机器学习工程博士学位,研究重点是科学领域的应用生成式AI。

Abdullahi Olaoye

Abdullahi Olaoye是NVIDIA的高级AI解决方案架构师,专注于将NVIDIA AI库、框架和产品与云AI服务和开源工具集成,以优化AI模型部署、推理和生成式AI工作流。他与云提供商合作,帮助提高AI工作负载的性能,并推动NVIDIA驱动的AI和生成式AI解决方案的应用。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区