随着生成式AI技术的蓬勃发展,我们正步入一个万物存储、万物智能、万物互联的全新时代。在这个时代里,数据的洪流如潮水般涌来,对数据中心的基础设施提出了前所未有的挑战。为了满足AI模型日益增长的计算需求,大型语言模型(LLM)需要同时处理海量的多模态数据集,包括文本、图像、音频和视频等,这促使AI处理资源的需求急剧上升,并需要在整个数据中心内实现高效互连。
面对这一挑战,传统的数据互连方式已经难以满足现代AI集群的扩展需求。随着AI平台架构的多样化和定制化,以及年度升级节奏的显著加快,数据中心必须寻找更加高效、可靠的连接解决方案。在这样的背景下,“PCIe over optics”技术应运而生,为AI基础设施的扩展和升级提供了全新的可能。
PCIe(Peripheral Component Interconnect Express)接口作为AI加速器和GPU上的原生可用接口,一直扮演着连接数据中心内部各个组件的重要角色。然而,随着AI集群规模的不断扩大,从最初的几个机架、数十个GPU,发展到跨越多个机架、数百个GPU的大型pod,互连长度迅速成为制约性能的关键因素。在PCIe 5.0数据速率下,虽然有源电缆能够覆盖到7米的距离,但在更高的数据速率下,如PCIe 6.x和PCIe 7.x,传统的铜缆解决方案已经无法满足跨机架连接的需求。
自 2017 年起,Astera Labs 致力于释放 AI 和云基础设施潜力,其智能连接平台以 PCIe®、CXL® 和以太网半导体解决方案及 COSMOS 软件套件为基础,构建可扩展、可定制架构。
该平台能实现远距离可靠连接,如今借助光学器件实现 PCIe 到行的连接,加速 GPU 集群部署;还通过软件定义架构和互操作性测试缩短 AI 平台部署时间;其深度诊断等功能可提高基础设施正常运行时间和利用率。
其产品系列丰富,Aries®PCIe®/CXL® 智能 DSP retimer 带宽高且被广泛应用,Aries PCIe/CXL 智能电缆模块(SCM)提供 7 米有源电缆用于机架连接,Taurus 以太网智能电缆模块(SCM)支持高速以太网连接,Leo CXL® 智能内存控制器优化内存管理。Astera Labs 在技术创新方面表现出色,为大规模部署先进方案奠定基础。
随着AI基础设施规模的扩大,传统无源直接连接电缆(DAC)已难以满足需求。高数据速率下,信号丢失问题加剧,限制了无源方案的有效性。为此,Aries PCIe/CXL® SCM™有源电缆(AEC)应运而生,其7米覆盖范围解决了DAC的连接距离限制,为AI加速器集群拓展提供了更多可能,布线可轻松延伸至机架外。但随数据速率提升至PCIe 6.x、7.x等高级别,无源和有源电缆将局限于单机架内。此时,PCIe over optics解决方案,特别是有源光缆(AOC),将在机架间连接中发挥关键作用,提供长距离、高稳定性能的连接,确保AI集群高效运行。
光纤链路已成为高速以太网连接的基石,支持超大规模数据中心内的长距离数据传输。将这一优势融入PCIe连接,通过开发新型PCIe over optics解决方案(含AOC),相较于铜缆,能显著扩展PCIe连接至机架集群范围,并优化电缆管理。
PCIe/CXL®在光学器件领域的运用,主要受其相较于以太网更低的延迟需求驱动,特别是在缓存一致内存事务及GPU间并行处理等高负载应用中。此外,这些应用还需借助专用软件对链路实施全面管理,以确保协议完全兼容及系统高度可靠。
总之,“PCIe over optics”技术的出现,为数据中心内部的数据传输提供了新的解决方案。它不仅提高了数据传输的效率和稳定性,还降低了运维成本,为AI平台的加速部署和下一代生成式AI应用程序的快速发展提供了有力支持。随着技术的不断进步和应用场景的不断拓展,“PCIe over optics”有望成为未来数据存储与传输领域的主流技术之一。
来源:易天光通信 |