📢 转载信息
原文链接:https://www.microsoft.com/en-us/research/blog/breaking-the-networking-wall-in-ai-infrastructure/
原文作者:Paolo Costa, Partner Research Manager
突破AI基础设施的“网络墙”:MOSAIC技术如何重新定义GPU互联
在当今的AI系统中,内存和网络瓶颈正日益严重地限制着系统的性能。它们导致GPU利用率下降,限制了基础设施的整体效率,即使投入了巨额资金也难以充分发挥潜力。这一挑战的核心在于用于内存和网络互连的通信技术之间存在根本性的权衡:要么追求功耗和可靠性,要么追求传输距离。
数据中心通常采用两种物理线缆连接GPU:传统的铜缆和光纤。铜缆虽然功耗效率高且可靠,但传输距离极短(< 2米),仅限于单个GPU机架内部。光纤可以传输数十米,但功耗远高于铜缆,且故障率高出100倍。
一个跨微软的团队致力于解决这一矛盾,他们开发出一种名为MOSAIC的新型光模块技术。该技术能够同时实现低功耗、低成本、高可靠性和长距离传输(最远达50米)。其核心在于硬件与系统的协同设计,并采用了一种“宽而慢”(wide-and-slow)的设计理念,利用微型LED(microLEDs)构建数百个并行低速通道。
传统“窄而快”架构的困境
功耗、可靠性和传输距离之间的权衡源于当前铜缆和光纤链路采用的“窄而快”(narrow-and-fast)架构,即少量通道以极高的数据速率运行。例如,一个800 Gbps的链路通常由八个100 Gbps的通道组成。
- 铜缆限制:通道速度越高,信号完整性挑战越大,从而限制了传输距离。
- 光纤限制:高速传输本质上效率低下,需要高功耗的激光驱动器和复杂的电子元件来补偿传输损伤。
- 可靠性影响:高速传输将光元件推向性能极限,压缩了系统余量,增加了故障率。
这些限制迫使系统设计人员做出艰难选择,阻碍了AI基础设施的扩展性。例如,需要多Tbps带宽的扩展网络通常不得不依赖铜缆以满足功耗预算,但这要求部署超密集的机架,每个机架功耗高达数百千瓦。这给冷却和机械设计带来了巨大的挑战,最终形成了类似于“内存墙”(CPU速度超越内存速度)的“网络墙”,成为性能瓶颈。
MOSAIC:基于微型LED的“宽而慢”革命
能够提供类似铜缆的能效和可靠性,同时实现远距离传输的技术,是克服“网络墙”的关键,它将支持多机架规模的扩展域,并解锁新的架构。
我们最近在ACM SIGCOMM 2025会议上发表的论文《MOSAIC: Breaking the Optics versus Copper Trade-off with a Wide-and-Slow Architecture and MicroLEDs》(该论文荣获最佳论文奖)中,展示了这种有前景的方法。这项工作是微软研究院(MSR)、Azure和M365多年合作的成果。它围绕光学的“宽而慢”架构展开,将少量高速串行通道转变为数百个并行的低速通道。
在当前的铜缆和光纤技术中,这种设计因以下原因难以实现:
- 高密度铜缆中的电磁干扰问题。
- 光纤链路中激光器的高成本和高功耗,以及封装复杂性的增加。
MOSAIC通过利用最初为屏幕显示器开发的微型LED(MicroLEDs)技术,克服了这些问题。
微型LED的优势
微型LED比传统LED小得多(尺寸在几微米到几十微米),并且由于其尺寸小,可以达到数Gbps的调制速率。它们可以被制造为大型阵列。例如,假设每个微型LED通道速率为2 Gbps,一个800 Gbps的MOSAIC链路仅需一个20x20的微型LED阵列,该阵列可以集成在小于1mm×1mm的硅芯片上。
MOSAIC“宽而慢”设计的四大核心优势:
- 低功耗:低速运行消除了对复杂电子设备的需求,并降低了光功率要求。
- 超远距离:通过光传输(微型LED),MOSAIC避开了铜缆的距离限制,支持高达50米的距离(比铜缆远10倍以上)。
- 高可靠性:微型LED结构更简单,对温度不敏感,比激光器更可靠。并行性也使得增加冗余通道变得容易,可靠性比现有光链路高出两倍数量级。
- 可扩展性:通过增加通道数量和/或提高单通道速度(例如提升至4-8 Gbps),可以轻松扩展到更高的总聚合速度(如1.6 Tbps或3.2 Tbps)。
此外,MOSAIC完全兼容当今可插拔收发器的外形尺寸,可以直接替代现有的铜缆和光纤,无需更改现有的服务器和网络基础设施。它还是协议无关的,因为它只负责在两端之间中继比特流,不进行连接终止或检查,因此与现有协议(如以太网、PCIe、CXL)完全兼容。目前,我们正与供应商合作,推动这项技术的产品化和规模化生产。
工程挑战与未来展望
尽管理念简洁,但实现这种架构涉及跨越多个技术栈的挑战,需要一支具备集成光子学、透镜设计、光传输以及模拟和数字设计专业知识的跨学科团队。
一个关键挑战是,如果为每个通道使用单独的光纤,由于通道数量庞大,成本和复杂性将高得令人望而却步。我们通过使用成像光纤(常用于医疗内窥镜)解决了这个问题,这种光纤每根可支持数千个纤芯,从而可以将许多通道复用到一根光纤内。
此外,微型LED的光源纯度不如激光器,光束形状较大(使光纤耦合复杂)且光谱更宽(导致色散引起的纤芯传输降级)。我们通过创新的微型LED和光学透镜设计,以及一个无需昂贵数字信号处理的低功耗纯模拟电子后端来解决这些问题。
根据目前的估计,MOSAIC方法可以节省高达68%的功耗,即每根线缆节省超过10W的电量,并将故障率降低多达100倍。考虑到全球每年光缆出货量达数千万,这将带来超过1亿瓦的年电力节省,足以为超过30万户家庭供电。
这些即时效益已相当可观,但低功耗、低成本、高可靠性和远距离传输的独特组合,为重新思考AI基础设施(从网络和集群架构到计算和内存设计)开辟了令人兴奋的新机遇。
例如,通过支持低功耗、高带宽的远距离连接,MOSAIC消除了对超密集机架的需求,并支持当前无法实现的全新网络拓扑结构。这种重新设计可以减少资源碎片化并简化整体优化。
在计算方面,能够在远距离低功耗连接硅芯片的能力,可能推动资源解耦(disaggregation),使我们从当前大型多芯片封装转向更小、更具成本效益的封装。绕开封装面积限制,还有可能大幅增加GPU的内存容量和带宽,并促进新型内存技术的采用。
历史上,网络技术的飞跃式进步催生了全新类别的应用和工作负载。虽然我们的SIGCOMM论文提供了未来可能的发展方向,但我们希望这项工作能激发研究界和工业界的广泛讨论与合作。
作者简介
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区