▌“超大规模的训练必须使用超级计算机”
激烈的“百模大战”伴随着科技同行对GPU算力的哄抢,大模型竞争的焦点竟不在大模型本身,而在算力。
积极建设算力基础设施的确是一条看得见也走得通的突破路径,这引爆了资本对算力概念股的热情。算力服务“第一股”北京并行科技股份有限公司(证券简称:并行科技,证券代码:839493.BJ)去年11月于北交所上市,作为国内领先的超算云服务和算力运营服务提供商,并行科技对算力这一路径探索得更早、看得更清晰。
算力短缺的解法是什么?算力调度的难点在哪?AI大模型的计算成本如此高,有哪些方法能够降低成本?国产算力如何加速国产替代?
算力豹邀请并行科技董事长、总经理陈健博士接受专访,在近一个小时的交谈中,细致拆解上述问题。
▲并行科技董事长、总经理陈健博士
01大模型训练底层为超级计算机,超算算力熟练上车
为获得AI大模型算力的“及时雨”,人们竭力榨干了GPU的每一滴算力。事实上,超级计算机也可以用于支持大模型训练。本(4)月初,微软和OpenAI的“Stargate(星际之门)”秘密计划被The Information曝光,双方准备花费1000亿美金建设超级计算机。在陈健博士看来,这一举动无疑是在向全世界宣布:大模型训练的底层是超级计算机。
▲The Information曝光微软和OpenAI的“Stargate(星际之门)”计划
诚然,大模型从训练到推理的技术链条都依赖于云计算中心,国内外不少科技巨头都横跨了云基础设施与大模型,尽可能地腾挪手中算力资源以满足大模型训练刚需。在陈健博士看来,超大规模的训练必须使用超级计算机。他还指出一个现象:云计算及其服务商正在积极学习超级计算机的逻辑和超算业务的运营方式,力图对计算中心进行改造。
“大模型训练需要的是一个明确的超级计算机,它的调度也是有利于推理的。”陈健博士说道。具体来说,超级计算服务器之间的计算带宽配比更大,是云计算网络带宽的数十倍,数据传输效率要求更高。在应对计算挑战方面,超算架构通过高速互联网络把GPU服务器紧耦合在一起,以并行计算技术实现单一大模型训练应用的高性能计算(HPC);而云计算架构主要对海量并发任务实现高通量计算(HTC),并不适合处理单一大规模计算任务。
伴随着我国超算的稳健发展,并行科技深耕超算算力服务十余年,并在大模型到来的这一刻交汇出新的弧光。并行科技从2015年开始从事超级计算机大集群调度,从超算算力开始描绘算力服务的版图,目前旗下超算云已成为中国科研用户首选的计算资源平台。根据弗若斯特沙利文,从收入规模角度,2021年并行科技通用超算云收入约1.3亿元,市场份额为20.3%,行业排名第一。
▲超算云竞争格局分析;资料来源:沙利文
算力服务是一种经营,陈健博士谈道,算力服务即将算力资源整包下来再寻找用户进行匹配。他透露,公司算力服务当前在主营业务中所占比例越来越大,去年收入接近5亿。
以“算力网络”为依托,以利用率为核心,并行科技的主要服务包括并行通用超算云、并行行业云、并行智算云以及设计仿真云等。根据用户需求,并行科技如今业务主要朝两个方向着力:
一是聚集已采购的算力资源来服务用户,据了解,并行科技现已与广州、无锡、长沙、济南和深圳等地的各类超算中心建立稳定合作关系;
二是在当前国产智算算力陆续上线的背景下,提供国产GPU所需的智算算力以及服务。
▲2023年,并行科技先后与宁夏联通、广东联通、上海联通等达成算力合作
目前,并行科技拥有约65万个超算云计算核心,具备成熟且强大的技术服务能力,与阿里云、华为云等头部企业处在同一梯队。陈健博士强调,此处提到的“云计算”指得是超算/智算的算力云服务,其底层架构是超级计算机,而不是传统认识中的云计算虚拟机。
02大模型带飞AI云业务增260%,智算中心项目有序推进
大模型的加速迭代与应用落地,推动了智能算力需求的激增,大模型的链式反应也传导到智算中心。
▲AI训练量的增长趋势和中国智算算力市场预估
对于智算中心,计算能力是大模型对其的基本要求,运行稳定和高性能是核心需求。陈健博士分析说,超算算力和智算算力的基础架构一致,涉及的超级计算只需从使用CPU转变成使用GPU。无论是计算架构的相似性,还是大模型对于计算过程的性能要求,都契合了并行科技于2020年左右开启的AI云业务。
陈健博士提到“性能(Performance)是一切的根源”,这一主旨贯穿并行科技的发展历程。并行科技起家于性能优化业务,在2012年推出应用运行特征分析软件,旨在解决超级计算机跑大型程序时遇到的核心性能问题。彼时,并行科技在行业里的形象总是和“技术高端”、“大规模的超级计算机”等词条关联着。而对于更广大的普通用户,并行科技推出在线运维业务,帮助他们全自动地进行性能分析,发现程序故障。
目光看向业界,2024年以来,一批大型智算中心项目建成运营,如此快的建设速度不禁让人担忧“智算中心想好怎么赚钱了吗”?陈健博士认为,“好用”的智算算力平台才能给智算中心带来实际价值,而关键不仅在产品端,也在用户端。具体来说,市场上专注于算力基础设施建设的主要为IDC数据中心供应商和云服务供应商,他们对维护软硬件工具和数据,以及优化国产GPU芯片等工作相对陌生;但对于并行科技来说,完成这些任务仅需将原有的业务平移。
陈健博士透露,大模型市场给并行科技的反应非常好,去年公司的AI云业务增长2.6倍,在成本被原有CPU业务覆盖的情况下,公司提供给用户更有性价比的产品。以国内某知名大模型企业为例,使用500余张英伟达A100 SXM版GPU卡,但在跑程序时故障率很高。并行科技通过两步,一是自动化运维程序,二是使训练任务提升40%,保证了并行程序长期稳定且高性能地运行,帮助用户解决了问题。
值得提醒的是,根据云计算行业发展的经验,智算中心是一个投入巨大、回报周期长的基础设施类项目,期待看到并行科技在智算市场的发展。
03超算中心利用率偏低,需深入了解用户需求
近年来,算力建设如火如荼地在中国大地上进行着,新建设施将不断完善全国算力网络体系,为全国产业提供算力调度及服务。陈健博士分析说,“算力网络”的概念参考了电网,但算力的“力”以芯片的形式呈现,无法像电一样被调度、能调度数据和算力需求,因此算力网络调度最核心的一环是将海量用户的需求理清楚。
算力建设“局中人”在状态高亢的同时更需要一份冷静。“没有用户需要算力,用户需要的是解决自己的问题。”陈健博士坦言。用户希望将应用软件的问题解决好,但他们不知道哪里有好用的算力。陈健博士担忧说,当前新建的算力中心并不研究客源、用户需求和应用运行。“国家投10个亿下去,一栋栋楼起来了,用户在哪里?很多用户起初提出需要多少卡,但建好后他表示‘真不好意思,我没钱了’,这种情况很普遍。”陈健博士接着提出,降低算力使用者投入算力资源的成本和门槛,才能提振算力服务市场需求。
通过多年来在运维服务与运维软件方面的拓展,并行科技积累了大量超算中心合作伙伴、应用软件开发商和超算用户资源。据介绍,在市场推广方面,公司并行科技有100+位销售,专注于将算力服务推广给需要的用户,在客源方面有较强的优势。记者获悉,公司已累计为超过两万来自于科研教育、航空航天、智能制造、人工智能等各应用领域的终端用户提供超算云服务,用户包括清华大学、北京大学、三一汽车制造有限公司等。
04全链路算力服务支撑国产GPU,三年追赶英伟达
2023年,国内AI算力紧缺,国产算力企业寻找突围的多种途径,多家A股上市公司在AI芯片国产替代上下了功夫。国产GPU与英伟达的差距还有多大?具体可行的提升路径是什么?
陈健博士评价说,目前国产GPU平台达到了可用的程度,但还需优化性能、提高性价比,三年后则有望与英伟达各占半壁江山。他分析,由于芯片出货量、工程打磨时间等因素,国产芯片相较于英伟达等的部件失效比率偏高,所以在大规模训练时,用国产芯片建设的超级计算机需要竭力延长无故障时间和提高加速比。由阿姆达尔定律可知,加速比到了天花板之后,无论增加多少CPU核都无济于事。但NVLink可以达到更高的加速比,这时国产芯片由于节点之间硬件软件适配的问题,就拉开了和英伟达的差距。
▲阿姆达尔定律揭示的核心数和加速比图例
在国产替代的征途上,并行科技“真枪实弹”上阵,以最精锐的团队支撑最前沿的国产GPU。据陈健博士介绍,并行科技的应用部凝聚百余位技术与研发人员,同时设立了国产算力事业部,为国产算力服务,支持国产算力在原有CPU(英特尔、AMD)和GPU(英伟达)上的程序移植测试优化,所支持的国产GPU平台目前已基本趋于成熟。
组建出在国内数一数二的国产算力事业团队,并行科技靠的是多年来在产学研融合方面的努力和探索。在超算这条细分跑道上,并行科技从2013年开始担负起超算人才培养和选拨的重任,举办多个超算人才竞赛。以并行科技承办的全国并行应用挑战赛(PAC)为例,这是一项基于Intel处理器平台以及融合加速器等多种运行环境而举办的超算大赛。“对于未来的超算人才来说,今年的竞赛将是一个在学生时期接触最新平台和技术的难得机会;从行业全局来看,这有利于中国人工智能大模型发展,有利于更早完成国产芯片替代。”陈健博士评价说。(特别提醒:全国并行应用挑战赛报名组队时间从即日起至7月24日。)
▲全国并行应用挑战赛
综合来看,并行科技公司在业务规模、技术能力、行业人才培养等方面均保持较高水平。据报道,陈健博士在2023年并行科技上市之际谈道,公司将提供包括超算中心选型配置、超算中心运营、超算云服务等在内的全链路算力资源运营服务。
05发力算力租赁和国产替代,助力国产算力“挑大梁”
无论是下游百模“大炼钢铁”,还是上游抢建智算中心,都显露出行业在日新月异的AI竞赛里的“算力焦虑”。在采访过程中,陈健博士妙语连珠、深入浅出地从技术、应用和市场方面洞悉问题本质,给出算力租赁和国产替代等多种路径,展示了并行科技的算力资源整合与调度能力优势,以及其作为一家算力服务商在行业中的实践示范。
从行业发展的宏观层面来看,国产大模型正在卡位中,但落地的过程仍然充满“猜忌”和“内耗”。陈健博士谈道,国产GPU芯片已经可以上大模型战场了,但在执行高端重要任务方面还需要磨炼。我们还需创造一个更高性能、更高效率的基础架构和系统,以及相对应的算力服务系统,以推动下一代人工智能的发展。并行科技的使命是“让计算更简单”,期待该公司在支持国产算力发展的这条路上做出贡献,伴随国产算力发展趋稳,早日进入主战场。