来源 :中国移动研究院2024-07-03
在人工智能领域日新月异的发展背景下,超大模型的训练和推理对算力基础设施,尤其是GPU卡间互联能力的要求已跃升至全新高度。6月28日,在“ODCC 2024夏季全会”上,中国移动研究院项目经理李锴深刻剖析了这一转变,并分享了中国移动在突破大规模GPU卡间互联技术瓶颈上的原创方案——全向智感互联(OISA),并在会上获得优秀项目经理(MVP)。
李锴指出,大模型技术正遵循着Scaling Law迅速演进,参数规模从千亿迈向万亿,同时模型特性也在从单一模态向多模态升级,序列处理能力从短序列拓展至长序列,这对计算资源的规模与效率提出了前所未有的挑战。面对巨大计算量,在扩大算力规模的同时,提升模型训练效率变得愈加重要。随着模型结构的不断优化,引入扩散模型和混合专家模型(MoE),模型的泛化能力和性能显著增强,进而推动了数据流从传统的DP、PP、TP向包含EP在内的更复杂模式演变,尤其是TP和EP流量的增长,对GPU卡间互联的效率及服务器设计提出了更高标准,促使业界探索超节点服务器及基于Switch拓扑的新形态。
针对现有GPU卡间互联中存在的协议不统一、拓扑形态局限及GPU与Switch芯片匹配度不足等问题,中国移动创新性地推出了全向智感互联开放协议体系(OISA)。OISA围绕大规模GPU对等互联、高效数据包格式、数据层可靠性机制以及高速物理传输四大核心理念展开设计,通过事务层(TL)、数据层(DL)和物理层(PL)的三层架构,旨在构建一个高性能、高扩展性且开放共享的Scale Up互联体系。目前,OISA Gen1协议及原型设计已顺利完成,标志着中国移动在GPU卡间互联技术上取得了实质性进展。
OISA Gen1的规格设计
展望未来,中国移动研究院正依托“北京全向智感OISA协同创新平台”,联合48家合作伙伴积极推进OISA Gen1.1规范的升级工作,并致力于OISA协议硬核IP方案的验证与推广,力求进一步拓宽产业合作,共同推动大模型训练技术的深度革新与广泛应用,为人工智能的未来发展奠定坚实的基础设施基础。