📢 转载信息
原文链接:https://www.microsoft.com/en-us/research/blog/breaking-the-networking-wall-in-ai-infrastructure/
原文作者:Paolo Costa, Partner Research Manager
打破AI基础设施的“网络墙”:利用MicroLED实现低功耗、高可靠、远距离的光学互联
发布于:2025年9月9日
作者:Paolo Costa (合伙人研究经理)

内存和网络瓶颈正日益成为限制AI系统性能的关键因素,它们降低了GPU的利用率和整体效率,即使在巨大投资的情况下,也使得基础设施的潜力无法完全发挥。这一挑战的核心在于用于内存和网络互连的通信技术之间存在的根本性权衡。
数据中心通常采用两种类型的物理线缆进行GPU之间的通信。传统的铜缆功耗效率高且可靠,但传输距离非常短(小于2米),这限制了它们只能在单个GPU机架内部使用。光纤链路可以达到数十米的距离,但功耗远高于铜缆,且故障率比铜缆高出多达100倍。微软跨部门团队正在致力于解决这一权衡难题,开发出一种名为MOSAIC的新型光学链路技术。该技术能够同时提供低功耗、低成本、高可靠性和长距离(最远可达50米)的连接能力。这种方法采用了硬件-系统协同设计,并利用MicroLED技术实现了“宽而慢”(wide-and-slow)的设计,即使用数百个并行的低速通道。
传统“窄而快”架构的限制
功耗、可靠性和传输距离之间的根本权衡源于当今铜缆和光纤链路中采用的“窄而快”(narrow-and-fast)架构,该架构由少量以极高数据速率运行的通道组成。例如,一个800 Gbps的链路由八个100 Gbps的通道构成。对于铜缆链路,更高的通道速度会导致信号完整性挑战加剧,从而限制了其传输距离。对于光纤链路,高速传输本质上效率低下,需要耗电的激光驱动器和复杂的电子元件来补偿传输中的信号衰减。随着网络一代代的升级,这些挑战也随之增加。高速传输也使得光元件的性能接近极限,降低了系统的裕度并增加了故障率。
在新标签页中打开这些限制迫使系统设计人员做出艰难的选择,从而限制了AI基础设施的扩展性。例如,连接AI加速器的扩展网络(通常需要多Tbps带宽)通常必须依赖铜缆以满足功耗预算,这要求极其密集的机架设计,每个机架的功耗高达数百千瓦。这给冷却和机械设计带来了巨大的挑战,从而制约了这些网络的实际规模和端到端性能。这种不平衡最终构筑了一堵“网络墙”(networking wall),类似于“内存墙”(memory wall),后者指的是CPU速度超越内存速度,从而造成性能瓶颈。
MOSAIC的“宽而慢”解决方案
一种能够在远距离内提供接近铜缆的能效和可靠性的技术,可以克服这堵网络墙,从而实现多机架的扩展域,并解锁新的架构。这是一个非常活跃的研发领域,业界正在开发许多候选技术。在我们最近发表的论文《MOSAIC:利用宽而慢架构和MicroLED打破光学与铜缆的权衡》中(该论文获得了ACM SIGCOMM 2025 最佳论文奖),我们展示了一种有前景的方法,这是微软研究院、Azure和M365多年合作的成果。这项工作围绕一种光学宽而慢架构,将少量高速串行通道转变为数百个并行低速通道。这在今天的铜缆和光纤技术中是难以实现的,原因在于:i) 高密度铜缆中的电磁干扰挑战,以及 ii) 光纤链路中激光器的高成本和高功耗,以及封装复杂性的增加。MOSAIC通过利用直接调制的MicroLED(最初为屏幕显示器开发的LED技术)克服了这些问题。
MicroLED的尺寸远小于传统LED(仅几到几十微米),由于尺寸小,它们可以以数Gbps的速度进行调制。它们以大阵列的形式制造,在小的物理尺寸内包含超过五十万个元件,适用于头戴设备或智能手表等高分辨率显示器。例如,假设每个MicroLED通道速度为2 Gbps,一个800 Gbps的MOSAIC链路可以通过使用一个20×20的MicroLED阵列来实现,该阵列可以集成在一个小于1 mm×1 mm的硅芯片上。
MOSAIC的四大核心优势
MOSAIC的“宽而慢”设计提供了四个核心优势:
- 以低速运行通过消除对复杂电子设备的需求并降低光学功耗,从而提高了能效。
- 通过利用光学传输(通过MicroLED),MOSAIC避开了铜缆的距离限制,支持最长50米的距离,比铜缆远出10倍以上。
- MicroLEDs更简单的结构和对温度的不敏感性使其比激光器更可靠。宽而慢的并行特性也使得增加冗余通道变得容易,从而将可靠性进一步提高了多达两个数量级,远高于现有光纤链路。
- 该方法还具有可扩展性,通过增加通道数量和/或提高单通道速度(例如提高到4-8 Gbps),可以实现更高的聚合速度(例如1.6 Tbps或3.2 Tbps)。
此外,MOSAIC完全兼容当今可插拔收发器的外形尺寸,可以作为现有铜缆和光纤的直接替代品,无需对现有服务器和网络基础设施进行任何更改。MOSAIC是协议无关的,因为它只是将比特从一个端点中继到另一个端点,而无需终止或检查连接,因此完全兼容现有协议(如以太网、PCIe、CXL)。目前,我们正与供应商合作,将这项技术投入生产并实现大规模量产。
实现中的关键工程挑战
尽管这种架构在概念上很简单,但在整个技术栈的实现过程中也面临着一些关键挑战,需要一个跨越集成光子学、透镜设计、光传输以及模拟和数字设计的跨学科团队。例如,为每个通道使用单独的光纤在物理上将过于复杂和昂贵,因为通道数量巨大。我们通过采用“成像光纤”(通常用于医疗应用,如内窥镜)解决了这个问题。每根成像光纤可以支持数千个纤芯,使得在一个光纤内复用许多通道成为可能。此外,MicroLEDs的光源纯度不如激光器,光束形状更大(使光纤耦合复杂化),光谱更宽(因色散导致光纤传输性能下降)。我们通过新颖的MicroLED和光学透镜设计,以及无需昂贵数字信号处理的低功耗纯模拟前端来应对这些问题。
巨大的节能潜力与未来展望
根据我们目前的估算,这种方法可以节省高达68%的功耗,即每根线缆节省超过10W的功耗,同时将故障率降低多达100倍。考虑到全球每年光缆的出货量达到数千万米,这意味着每年可以节省超过100MW的电力,足以为超过30万户家庭供电。虽然这些直接的收益已经非常可观,但低功耗、低成本、高可靠性和长距离的独特组合,为我们重新思考AI基础设施(从网络和集群架构到计算和内存设计)开辟了令人兴奋的新机遇。
例如,通过在长距离上支持低功耗、高带宽连接,MOSAIC消除了对超密集机架的需求,并支持了今天不切实际的新型网络拓扑结构。由此产生的重新设计可以减少资源碎片化并简化集体优化。同样,在计算方面,在长距离上以低功耗连接硅芯片的能力可以实现资源解耦(disaggregation),从而从今天的大型多芯片封装转向更小、更具成本效益的封装。绕过封装面积限制还将使我们能够大幅增加GPU的内存容量和带宽,同时促进新型内存技术的采用。
历史上,网络技术的飞跃式发展总能解锁全新的应用和工作负载类别。虽然我们的SIGCOMM论文提供了未来可能的方向,但我们希望这项工作能够激发研究界和工业界的广泛讨论与合作。
在新标签页中打开
相关出版物
了解作者
继续阅读

超表面技术:解锁无线感知与通信的未来

诞生于十年前的研究实验室,SWAN持续加速微软云中的网络

Ideas:与Behnaz Arzani一起解决网络管理难题

微软亮相NSDI 2024:网络系统领域的发现与实现
研究领域
相关视频
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区