📢 转载信息
原文作者:Dan Ferguson, Benjamin Crabtree, Abdullahi Olaoye, Timothy Ma, Nirmal Kumar Juluru, Vivian Chen, and Pooja Karadgi
今天,我们很高兴地宣布,拥有 3B 激活参数的 NVIDIA Nemotron 3 Nano 模型现已在 Amazon SageMaker JumpStart 模型目录中正式发布。您无需管理模型部署的复杂性,即可在 Amazon Web Services (AWS) 上利用 Nemotron 加速创新并提供切实的业务价值。您可以使用 SageMaker JumpStart 提供的托管部署功能,为您的生成式 AI 应用程序提供 Nemotron 的能力支持。
Nemotron 3 Nano 是一款小型语言混合专家 (MoE) 模型,具有最高的计算效率和准确性,可帮助开发人员大规模驱动高度专业的代理任务。该模型完全开放,包括开放的权重、数据集和配方,因此开发人员可以在自己的基础设施上无缝定制、优化和部署该模型,以满足其隐私和安全要求。Nemotron 3 Nano 在编码和推理方面表现出色,并在 SWE Bench Verified、GPQA Diamond、AIME 2025、Arena Hard v2 和 IFBench 等基准测试中处于领先地位。
关于 Nemotron 3 Nano 30B
Nemotron 3 Nano 因其架构和准确性而有别于其他模型,在各种高技术技能中表现出强大的性能:
- 架构:
- ο 采用混合 Transformer-Mamba 架构的 MoEο 支持 Token 预算,以最少的推理 Token 生成提供最佳准确性
- 准确性:
- 在编码、科学推理、数学和指令遵循方面处于领先地位
- 在 LiveCodeBench、GPQA Diamond、AIME 2025、BFCL 和 IFBench 等基准测试中领先(与其他 30B 以下的开放语言模型相比)
- 可用性:
- 300 亿参数模型,具有 30 亿激活参数
- 上下文窗口高达 100 万个 Token
- 文本基础模型,输入和输出均使用文本
先决条件
要在 Amazon SageMaker JumpStart 中开始使用 Nemotron 3 Nano,您必须拥有一个已配置的 Amazon SageMaker Studio 域。
在 SageMaker JumpStart 中开始使用 NVIDIA Nemotron 3 Nano 30B
要在 SageMaker JumpStart 中测试 Nemotron 3 Nano 模型,请打开 SageMaker Studio,然后在导航窗格中选择 Models(模型)。在搜索栏中搜索 NVIDIA,然后选择 NVIDIA Nemotron 3 Nano 30B 作为模型。
在模型详细信息页面上,选择 Deploy(部署)并按照提示部署模型。
模型部署到 SageMaker AI 端点后,您可以对其进行测试。您可以使用以下 AWS 命令行界面 (AWS CLI) 代码示例访问模型。您可以将 nvidia/nemotron-3-nano 用作模型 ID。
cat > input.json << EOF
{
"model": "${MODEL_ID}",
"messages": [
{ "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "What is NVIDIA? Answer in 2-3 sentences."}
],
"max_tokens": 512,
"temperature": 0.2,
"stream": False, # Set to False for non-streaming mode, "chat_template_kwargs": {"enable_thinking": False} # Set to False for non-reasoning mode
}
EOF aws sagemaker-runtime invoke-endpoint \
--endpoint-name ${ENDPOINT_NAME} \
--region ${AWS_REGION} \
--content-type 'application/json' \
--body fileb://input.json \
> response.json
或者,您可以使用 SageMaker SDK 和 Boto3 代码访问模型。以下 Python 代码示例展示了如何使用 SageMaker SDK 向 NVIDIA Nemotron 3 Nano 30B 发送文本消息。有关其他代码示例,请参阅 NVIDIA GitHub 仓库。
runtime_client = boto3.client('sagemaker-runtime', region_name=region) payload = { "messages": [ {"role": "user", "content": prompt} ], "max_tokens": 1000 } try: response = self.runtime_client.invoke_endpoint( EndpointName=self.endpoint_name, ContentType='application/json', Body=json.dumps(payload) ) response_body = response['Body'].read().decode('utf-8') raw_response = json.loads(response_body) # Parse the response using our custom parser return self.parse_response(raw_response) except Exception as e: raise Exception( f"Failed to invoke endpoint '{self.endpoint_name}': {str(e)}. " f"Check that the endpoint is InService and you have least-privileged IAM permissions assigned." )
现已推出
NVIDIA Nemotron 3 Nano 现已在 SageMaker JumpStart 中完全托管。请参阅模型包以了解 AWS 区域可用性。要了解更多信息,请查看 Nemotron Nano 模型页面、NVIDIA GitHub 上针对 Nemotron 3 Nano 30B 的示例 Notebook,以及 Amazon SageMaker JumpStart 定价页面。
立即在 Amazon SageMaker JumpStart 中尝试 Nemotron 3 Nano 模型,并通过 AWS re:Post 论坛(针对 SageMaker JumpStart) 或您通常的 AWS 支持联系人发送反馈。
关于作者
Dan Ferguson 是 AWS 的解决方案架构师,常驻美国纽约。作为机器学习服务专家,Dan 致力于支持客户高效、有效地集成 ML 工作流程。
Pooja Karadgi 领导着 Amazon SageMaker JumpStart(SageMaker 内的机器学习和生成式 AI 中心)的产品和战略合作。她致力于通过简化基础模型发现和部署,加速客户的 AI 采用,帮助客户在整个模型生命周期中构建可投入生产的生成式 AI 应用程序——从入职、定制到部署。
Benjamin Crabtree 是 Amazon SageMaker AI 团队的高级软件工程师,专注于为客户提供“最后一英里”体验。他热衷于通过提供易于使用的功能,使最新的人工智能突破民主化。此外,Ben 在大规模构建机器学习基础设施方面经验丰富。
Timothy Ma 是 AWS 的生成式 AI 首席专家,他与客户合作设计和部署尖端的机器学习解决方案。他还负责领导生成式 AI 服务的上市战略,帮助组织利用先进 AI 技术的潜力。
Abdullahi Olaoye 是 NVIDIA 的高级 AI 解决方案架构师,专注于将 NVIDIA AI 库、框架和产品与云 AI 服务和开源工具集成,以优化 AI 模型部署、推理和生成式 AI 工作流。他与 AWS 合作,以提高 AI 工作负载的性能,并推动 NVIDIA 驱动的 AI 和生成式 AI 解决方案的采用。
Nirmal Kumar Juluru 是 NVIDIA 的产品营销经理,负责推动 NVIDIA NGC Catalog 和 NVIDIA AI 基础模型及端点中 AI 软件、模型和 API 的采用。他之前担任过软件开发人员。Nirmal 拥有卡内基梅隆大学的 MBA 学位和 BITS Pilani 的计算机科学学士学位。
Vivian Chen 是 NVIDIA 的深度学习解决方案架构师,她帮助团队弥合复杂 AI 研究与实际性能之间的差距。Vivian 专注于推理优化和云集成 AI 解决方案,致力于将机器学习的繁重工作转化为快速、可扩展的应用程序。她热衷于帮助客户驾驭 NVIDIA 的加速计算栈,以确保他们的模型不仅在实验室中有效,而且能在生产环境中茁壮成长。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

评论区