📢 转载信息
原文作者:Sandeep Raveesh-Babu, Jessica Liao, and Rahul Easwar
今天,我们宣布推出Amazon SageMaker AI with MLflow,现已包含无服务器功能,该功能可动态管理人工智能和机器学习(AI/ML)开发任务的基础设施预置、扩展和运维。它能够在密集实验期间自动扩展资源,在不使用时缩减至零,从而减少运维开销。它引入了企业级功能,包括通过跨账户共享实现的无缝访问管理、自动版本升级,以及与SageMaker AI功能(如模型自定义和管道)的集成。无需管理员配置,且不产生额外费用,数据科学家可以立即开始跟踪实验、实施可观测性,并在没有基础设施延迟的情况下评估模型性能,从而可以轻松地在组织内部扩展 MLflow 工作负载,同时保持安全性和治理能力。
在本文中,我们将探讨这些新功能如何帮助您利用 SageMaker AI with MLflow 以改进的性能、自动化和安全性来运行大型 MLflow 工作负载,从生成式AI代理到大型语言模型(LLM)实验。
SageMaker AI with MLflow 中的企业级功能
SageMaker AI 中的新型 MLflow 无服务器功能通过自动扩展、默认预置、无缝版本升级、简化的 AWS 身份和访问管理 (IAM) 授权、通过 AWS 资源访问管理器 (AWS RAM) 进行资源共享,以及与 Amazon SageMaker Pipelines 和模型自定义的集成,提供了企业级的管理能力。术语 MLflow Apps 取代了之前的 MLflow tracking servers 术语,反映了简化的、以应用程序为中心的做法。您可以在 Amazon SageMaker Studio 中访问新的 MLflow Apps 页面,如下面的屏幕截图所示。

当您创建 SageMaker Studio 域时,系统会自动预置一个默认的 MLflow App,从而简化了设置过程。它开箱即用,准备就绪,无需额外预置或配置。MLflow App 会根据您的使用情况弹性扩展,减轻了手动容量规划的需要。您的训练、跟踪和实验工作负载可以自动获得所需的资源,在保持性能的同时简化了操作。
管理员可以在创建 MLflow App 期间定义维护窗口,在此期间 MLflow App 的就地版本升级将会进行。这有助于 MLflow App 保持标准化、安全并持续最新,从而最大限度地减少手动维护开销。本次发布支持 MLflow 版本 3.4,如以下屏幕截图所示,它将 MLflow 扩展到 ML、生成式AI应用程序和代理工作负载。

通过 MLflow Apps 简化的身份管理
我们通过新的 MLflow App 简化了 ML 团队的访问控制和 IAM 权限。简化的权限集,例如 sagemaker:CallMlflowAppApi,现在涵盖了常见的 MLflow 操作——从创建和搜索实验到更新跟踪信息——使强制执行访问控制更加简单。
通过启用简化的 IAM 权限边界,用户和平台管理员可以在团队、角色和项目之间标准化 IAM 角色,从而促进对 MLflow 实验和元数据的持续可审计的访问。有关完整的 IAM 权限和策略配置,请参阅 为 MLflow Apps 设置 IAM 权限。
使用 AWS RAM 进行 MLflow Apps 的跨账户共享
管理员希望在不同 AWS 账户中集中管理其 MLflow 基础架构,同时在不同账户中预置访问权限。MLflow Apps 支持 AWS 跨账户共享,以实现协作的企业级 AI 开发。使用 AWS RAM,此功能有助于 AI 平台管理员将 MLflow App 无缝共享给拥有消费者 AWS 账户的数据科学家,如下面的图表所示。
平台管理员可以维护一个集中管理、受治理的 SageMaker 域,该域预置和管理 MLflow App,而单独的消费账户中的数据科学家可以安全地启动和与 MLflow App 交互。结合新的简化 IAM 权限,企业可以从集中的管理 AWS 账户启动和管理 MLflow App。使用共享的 MLflow App,下游数据科学家消费者可以在保持治理、可审计性和合规性的同时,从单个平台管理员控制平面记录其 MLflow 实验和生成式 AI 工作负载。要了解有关跨账户共享的更多信息,请参阅 AWS RAM 入门指南。
SageMaker Pipelines 和 MLflow 集成
SageMaker Pipelines 与 MLflow 集成。SageMaker Pipelines 是一项专为 MLOps 和 LLMOps 自动化而构建的无服务器工作流编排服务。您可以使用直观的拖放式 UI 或 Python SDK 来无缝构建、执行和监控可重复的端到端 ML 工作流。从 SageMaker 管道中,如果尚未创建默认的 MLflow App,则会创建一个,可以定义 MLflow 实验名称,并将指标、参数和工件记录到 MLflow App 中,如 SageMaker 管道代码中所定义的那样。下面的屏幕截图显示了一个使用 MLflow 的示例 ML 管道。
SageMaker 模型自定义和 MLflow 集成
默认情况下,SageMaker 模型自定义与 MLflow 集成,从而在模型自定义作业和 MLflow 实验之间实现自动链接。当您运行模型自定义微调作业时,将使用默认的 MLflow App,选择一个实验,并自动为您记录指标、参数和工件。在 SageMaker 模型自定义作业页面上,您可以查看源自 MLflow 的指标,并在 MLflow UI 中深入查看其他指标,如下面的屏幕截图所示。
结论
这些功能使 SageMaker AI 中新的 MLflow Apps 能够以最小的管理负担应对企业级的 ML 和生成式 AI 工作负载。您可以从 GitHub 示例仓库 和 AWS 实践教程 中提供的示例开始。
MLflow Apps 在 SageMaker Studio 可用的 AWS 区域(中国和美国 GovCloud 区域除外)中通常可用。我们邀请您探索此新功能,体验它为您的 ML 项目带来的增强的效率和控制力。立即开始操作,请访问 SageMaker AI with MLflow 产品详细信息页面和 在 Amazon SageMaker AI 上使用托管 MLflow 加速生成式 AI 开发,并将您的反馈发送至 AWS re:Post for SageMaker 或通过您惯用的 AWS 支持联系人。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。



评论区