目 录CONTENT

文章目录

在 AWS 上扩展地震基础模型:利用 Amazon SageMaker HyperPod 进行分布式训练与扩展上下文窗口

Administrator
2026-04-03 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/scaling-seismic-foundation-models-on-aws-distributed-training-with-amazon-sagemaker-hyperpod-and-expanding-context-windows/

原文作者:Haotian An, Debby Wehner, Manoj Alwani, Altay Sansal, Alejandro Valenciano


本文与 TGS 的 Altay Sansal 和 Alejandro Valenciano 共同撰写。

能源行业地球科学数据提供商 TGS,通过地震基础模型(SFM)支持其客户的勘探与生产工作流。这些模型能够分析复杂的 3D 地震数据,从而识别对能源勘探至关重要的地质结构。为了增强其下一代模型并实现 AWS 基础设施现代化,TGS 与 AWS 生成式 AI 创新中心(GenAIIC)展开合作,旨在优化其 SFM 训练基础设施。

本文介绍了 TGS 如何利用 Amazon SageMaker HyperPod 为其基于视觉 Transformer(ViT)的 SFM 实现近乎线性的分布式训练扩展,并成功拓宽了上下文窗口。该联合解决方案将模型训练时间从 6 个月大幅缩短至 5 天,并使分析比以往更大规模的地震体成为可能。

应对地震基础模型训练的挑战

TGS 的 SFM 采用了一种由 TGS 团队设计的基于 Vision Transformer(ViT)架构的掩码自动编码器(MAE)训练方法,用于分析 3D 地震数据。扩展此类模型面临多重挑战:

  • 数据规模与复杂性 – TGS 处理的海量 3D 地震数据存储在特定领域格式中。其庞大的体量和复杂的结构要求高效的流式传输策略,以维持高吞吐量并防止训练期间的 GPU 空闲。
  • 训练效率 – 在 3D 体积数据上训练大型基础模型(FM)计算密集。加速训练周期有助于 TGS 更频繁地整合新数据,并更快地迭代模型改进。
  • 扩展分析能力 – 模型所能分析的地质背景取决于其一次可处理的 3D 体积量。扩展这一能力将允许模型同时捕捉局部细节和宏观地质模式。

解决方案概览

TGS 与 AWS GenAIIC 的合作重点在于三个领域:建立高效的数据流水线、优化多节点分布式训练,以及扩展模型上下文窗口以分析更大的地质区域。下图展示了解决方案架构。

架构图

该方案采用 SageMaker HyperPod,提供了具备自动健康监控和检查点管理功能的弹性、可扩展训练基础设施。Terabytes 级的训练数据直接从 Amazon S3 进行流式传输,省去了中间存储层并保持了高吞吐量。分布式训练框架采用了先进的并行化技术,以在多个节点上高效扩展。

优化训练数据流水线

TGS 的训练数据集由 3D 地震体组成,存储在基于 Zarr 数组开发的开源格式 MDIO 中。针对数据传输,团队比较了两种路径:

  • Amazon FSx for Lustre – 将数据从 Amazon S3 复制到高速分布式文件系统。提供亚毫秒级延迟,但需要预加载和配置存储容量。
  • 直接从 Amazon S3 流式传输 – 利用 MDIO 的原生功能和多线程库直接读取数据。

最终选择直接从 S3 流式传输:这种方式实现了集群吞吐量的线性扩展,每个节点创建独立的连接,避免了单一文件系统的吞吐量瓶颈,并将存储基础设施成本降低了 90% 以上。

选择分布式训练框架

经过综合测试,DeepSpeed ZeRO-2 被证明是该配置下的最优框架。相较于 ZeRO-3 或 FSDP2,它在内存效率与训练吞吐量之间取得了最佳平衡,实现了高达 64–80 GBps 的全集群吞吐量。

扩展分析能力

该项目最显著的成就之一是扩展了模型的“视野”(Context Window)。通过实施环形注意力(Ring Attention)机制,TGS 的模型现在可以一次性处理的 3D 体积增加了 4.5 倍,从 102,400 个 token 扩展到了 1,170,000 个 token,使其能够捕捉从微小断层到盆地级系统的全尺度地质特征。

2D 模型上下文大小示例


🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区