📢 转载信息
原文作者:Marc Karp, Dmitry Soldatkin, Shrijeet Joshi, Kareem Syed-Mohammed, and Xu Deng
今天,Amazon SageMaker AI 正式推出针对实时推理端点的 OpenAI 兼容 API 支持。如果您正在使用 OpenAI SDK、LangChain 或 Strands Agents,现在只需更改端点 URL,即可在 SageMaker AI 上调用模型。您无需编写自定义客户端、处理复杂的 SigV4 签名,也无需重写现有代码。
概述
此次更新后,SageMaker AI 端点将通过 /openai/v1 路径提供支持,该路径兼容 Chat Completions 请求,并能直接返回容器响应,包括流式传输。所有使用标准 SageMaker AI API 和 SDK 的端点及推理组件现在均可启用 OpenAI 兼容性。
SageMaker AI 会根据 URL 中的端点名称进行路由,因此任何兼容 OpenAI 的客户端都能即开即用。您现在可以为端点创建有时效性的 Bearer Token,并在 OpenAI 客户端中使用。
关于部署和调用的完整示例,请参考 GitHub 上的演示笔记本。
使用场景
在自有基础设施上运行智能体工作流
如果您使用 Strands Agents 或 LangChain 等框架构建多步 AI 智能体,现在可以将这些工作流完全运行在您自己的 SageMaker AI 端点上。您的智能体将使用与原先相同的 OpenAI 兼容接口,但推理过程将在您账户内的专用 GPU 实例上执行。
通过单一接口托管多个模型
如果您运行多个模型(例如用于通用任务的 Llama、用于特定领域的微调 Mistral 和用于分类的小型模型),可以通过推理组件将它们全部托管在单个 SageMaker AI 端点上。每个模型都拥有独立的资源配额,且均可通过相同的 OpenAI SDK 调用,无需在代码中维护复杂的路由逻辑。
无需修改代码即可部署微调模型
当您针对特定需求对开源模型进行微调后,可以将其部署在 SageMaker AI 上,并直接通过应用程序现有的 OpenAI 兼容接口进行调用。除了修改端点 URL 外,其余的应用逻辑(SDK 调用、流式处理、提示词格式化)均保持不变。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区