chaguwang.cn-查股网.中国
查股网.CN
中国电信(601728)内幕信息消息披露
 
个股最新内幕信息查询:    
 

中国电信研究院自研新型RDMA拥塞控制技术,依托大科创装置完成试验验证

http://www.chaguwang.cn  2024-01-17  中国电信内幕信息

来源 :通信世界网2024-01-17

  随着国内外越来越多的AI大模型应用落地,AI算力需求快速增加。网络性能决定了GPU集群算力,网络可用性决定GPU集群算力稳定性,海量算力对网络提出大带宽、高利用率、无损等新要求。拥塞控制不仅是网络稳定、高效运行的关键,同时又是实现各种服务质量的基础和前提。

  中国电信研究院(简称:研究院)与天翼云科技有限公司(简称:天翼云)携手,共同致力于应对大模型和高性能计算场景的挑战,提出了全新的RDMA端到端拥塞控制机制,首次实现了运营商自主研发拥塞控制技术的重要突破。近日,研发团队在中国电信大科创装置上展开了自研拥塞控制算法CTCC的仿真和物理试验,这项技术针对自研拥塞控制单元与集中控制器,在主流交换机的智算组网拓扑中进行了测试,取得了实测结果,不仅满足设计目标,还展现了独特的优势。

  image.png

  基于大科创装置的拥塞控制技术

  物理和仿真试验平台架构

  01新型拥塞控制技术体系,打造核心竞争力

  拥塞控制机制作为智算网络的核心和基础技术,在面对大模型训练的大规模、大带宽、低时延零抖动等高要求时显得尤为关键。研究院研发团队结合天翼云业务特点,成功设计并实现了全新的拥塞控制技术体系。该体系支持主动+被动拥塞探测和分阶精细化矢量流控,支持业务流量特征建模灵活适配大模型训练、推理、存储等多种业务场景,支持兼容目前主流交换机,无需交换机做升级改造、免交换机配置。这项创新不仅可以有效提升智算中心网络通信效率,提高整体系统训练效率,同时还能够降低训练成本,打造了自研拥塞控制技术的核心竞争力。

  02仿真与物理实验相结合,自研拥塞控制助力智算网络性能提升

  自研拥塞控制算法的仿真实验基于大科创装置的自研大规模高性能RDMA网络仿真平台,构建了千卡规模网络拓扑仿真环境,对标业界主流拥塞控制算法进行了详尽的仿真测试和对比。结果显示,相较于当前业界主流算法,自研算法在交换机队列、时延、PFC 触发 3 项关键指标上领先。为进一步验证结果,研发团队借助大科创装置提供的智算环境,在物理实验床中采用了多厂家交换机、GPU服务器和全闪存储服务器进行了组网测试,开展的800+项测试验证结果与仿真预期相符,其中基准多打一流量时延降低14%、集合通信流量耗时降低12%、高性能存储业务随机读写IOPS提升6.27%、智算中心MOE大模型训练业务耗时降低19.6%。

  03持续推动智算高速互联关键技术攻关,推动产业生态合作

  研究院将联合天翼云继续深入推进智算高速互联关键技术的攻关,并积极布局相关技术标准,面向400G、800G高速网络互联场景与产业伙伴协同创新,布局端网协同新型高速流量控制技术,实现精准、快速的拥塞控制和流量调度算法。后续将依托中国电信大科创装置,展开智算中心各项试验,推动产业链的成熟与落地,进一步巩固中国电信在智算高速互联技术的领先地位,为整个行业带来新的突破。

有问题请联系 767871486@qq.com 商务合作广告联系 QQ:767871486
www.chaguwang.cn 查股网