昆仑万维CEO：AI训练成本会从两方面迅速降低，中小企业要更关注大模型应用

http://www.chaguwang.cn 2023-04-07 昆仑万维内幕信息

来源 :华尔街见闻2023-04-07

　　特邀嘉宾：昆仑万维CEO【方汉】

　　摘要：

　　1、AIGC商业化机会：商业化机会来自两方面，一是中文大模型底座、二是面向ToC（创作优秀内容的成本下降，质量提高形成AI内容社区），ToB（降本增效）的应用，成长速度B端慢于C端。

　　2、商业模式：目前国外主流是API调用次数收费，少部分C端付费，长期来看将通过生态获取用户，小企业API调用与大企业解决方案模式将并存。

　　3、研发成本：计算费用高昂为短期情况，人才涌入后成本也会随之下降。降本来自于两方面，一是算法底层的优化，二是国产训练卡的推出，第一项优化将更迅速。

　　4、大模型安全问题：OpenAI胜出是基于可以控制大模型内容安全，自监管也会趋于完善，长期看安全问题可以保障，相关技术处于持续研究中。

　　5、游戏与AI：游戏产业本身更新速度快且愿意拥抱新技术，同时游戏也需要AI最擅长的文本、美术与编程技术，因而成为热点。此外，游戏能模拟简单世界进行预测。

　　6、浏览器与AI：浏览器是满足互联网长尾需求的工作平台，且是搜索引擎的重要入口。目前文本大模型存在问题：时效性滞后、准确性需考证，将大模型与搜索引擎结合可以解决这两大问题，因此非常看好AIGC与浏览器相结合，可以解决大多数长尾需求。

　　7、图像扩散模型进展：原有对抗网络模型已被扩散模型取代，扩散模型已成为文本生成图像的技术标准，已广泛使用于电商广告营销中。

　　关注：只在电脑里完成闭环的工作受AI影响是最大的。正文

　　见智研究：AIGC在哪些领域具有比较好的变现机会？

　　方汉：

　　从商业化落地来看，我认为目前业界可以分为两个方向。

　　第一个是大模型本身的底座，它应该是这一轮AI革命的一个基石。如果能制作出一个优秀的中文大模型底座，必然能在中国市场上获得许多商业机会。这是第一个方向。

　　第二个方向就是面向ToC或ToB的应用层。ToB的应用层比较容易理解，就是降本增效，能够降低企业的成本，为企业的工作效率带来极大的提升。然后在C端，我们可以看到这一轮AIGC能让C端创作优秀内容的成本大幅下降，速度大幅提升，质量大幅提高。这样会形成新的类似于原来短视频平台一样的内容社区，商业机会非常大。我们的工作范围也会在大模型底座领域和应用层进行努力和开拓。

　　见智研究：ToB和ToC领域的潜在增长空间有多大？

　　方汉：

　　预测具体的增长空间是不好说的，但一般来说，B端企业的生产速度通常比C端要慢，因为C端的增长速度非常快，用户量非常庞大。在这一轮AIGC的浪潮中，我们可以看到针对C端的主要应用是各种端到端的内容创作工具。这种工具越简单易用，门槛越低，就会获得更多用户，从而形成大量的内容社区。

　　所以在C端的商业逻辑就是，使用方法要足够简单，同时创作出的内容质量要足够高。这样在C端自然能吸引大量用户。而在B端，实际上目前AI生成内容或者通用人工智能跟现有的商业工作流结合还需要做很多细节工作。在各行各业落地的时候，都需要大量的工程实践。哪个企业能够先把一个行业的AIGC彻底打透，让这个行业里的用户都认为这是一个事实上的标准，那么它获得的优势或者护城河将会长期持续。所以在B端来说，实际上就是针对行业进行深入挖掘。

　　对于C端来说，就是尽可能地制作出门槛足够低的内容创作工具，让用户能够更好、更快、更强地去创作内容。我觉得这两个商业逻辑有明显的差异，相对来说C端的增长速度会更快一些。

　　见智研究：AIGC主流的商业模式包括什么？

　　方汉：

　　这次大模型与以往的SaaS模式或解决方案模式有所不同，因为大模型本身非常领先。在国外，目前最主流的方式仍然是通过API调用次数来收费。当然，C端也有直接付费的模式。然而，从长期来看，大模型应该依靠生态来获取用户，因为一开始大模型具有很大的垄断地位。随着大模型的普及，针对行业的解决方案将能够在这个行业中吸引足够多的用户。

　　前期可能是按照 API 模式，或者对于中小客户来说还是按照 API 模式。但对于行业的大客户，商业解决方案更受欢迎。长期来看，API 模式主要针对中小企业或者某些行业，而商业解决方案则更适合大企业定制，这两种模式将长期共存。

　　见智研究：昆仑天工大模型有何不同？

　　方汉：

　　不同的模型解决不同的问题。预训练文本大模型是相对通用的人工智能模型，这几个模型的基石都是预训练大模型。文本生成图像、文本生成代码以及文本生成音乐这几个方向，是为了满足美术工作者、程序工作者以及音乐工作者日常工作流程中的使用而推出的行业子模型。这会成为大模型生态的经典形式，即一个大模型配上多个针对不同行业的子模型来协同完成工作。如果只是做通用人工智能，那么预训练文本大模型仍然是最重要的基石模型。

　　见智研究：目前跨模态的研发难点主要集中在哪些方面？

　　方汉：

　　在图文方面，首先我们人类手上最大的数据集或者最准确的数据集仍然是文本数据集，因此文本和训练大模型的发展是最迅速的。虽然现在可以在网上抓取到大量的图片和视频，但大多数这些图片和视频都没有经过标注，因此需要大量的工作进行标注，这是一个非常消耗人力成本的问题。

　　首先在数据方面，训练多模态大模型需要克服一定的门槛。其次，我们知道图像和视频的容量都远远超过文本，所以它们单独需要更大的存储空间。同样地，我们去理解一段文本所需的计算能力与去理解图片和视频所需的计算能力也是完全不同的。打个简略的例子，训练一个 GPT 3 的大模型或者 GPT 4 的大模型，可能只需要 1000 张训练卡，但训练图片和视频可能需要 1 万张训练卡，因此所需的训练资源会以 10 倍的量级增长。

　　见智研究：您是如何看待封闭式以及开源大模型未来的竞争？

　　方汉：

　　从历史的角度来看，商业操作系统最早是有很多家竞争者，但最后Windows胜出了。但是在Windows之后，仍然有Linux这样的开源操作系统兴起，并且成为了Windows的一个重要补充部分，它们也在长期竞争。随后，在移动时代，既有闭源的iOS，也有开源的安卓。对于第三方厂商和中小企业来说，使用开源的安卓系统是他们最优的选择。

　　因此，从长期来看，开源大模型和闭源大模型之间是一个相互补充并存的关系。对于有定制能力的企业来说，开源大模型是他们的最佳选择，而对于没有定制能力的小企业来说，闭源模型是他们能够拿到最好的服务。

　　见智研究：如何降低大模型研发成本？

　　方汉：

　　高昂的计算费用是一个短期的问题。任何新事物在刚出现时成本都会很高。但是随着行业中优秀人才的涌现，成本会迅速下降。

　　目前来看，这种成本下降主要有两个方面。第一个方面是算法底层的优化，比如我们当前使用的训练方式是否最优。现在有许多开源的大型模型，发布了新的优化方法，大家都在发布各种各样的方法来降低训练微调的成本。

　　那么我认为在开源上这一点表现的是很明显的，也就是说我们业界会在软件上很迅速的去把训练成本给降下来，这是训练成本，同时间相比是有一个相关性的，随着时间的流逝，那么它的训练单位训练成本一定会逐步下降。

　　第二条路径比较艰难也就是硬件，也就是说目前的训练主要还是依赖于美国 Nvidia 公司的训练卡。那么长期来看，国内有很多硬件公司也在制作自己的训练卡，大家也知道国内还是有 4-5 家企业在这个赛道里面，那么在国产的训练卡出来之后，基于国产的训练卡进行一个成本上的优化和下降，也是可以预期的。当然了，这条路的速度应该没有软件优化来的快，所以说相对是长而艰难的路。

　　见智研究：如何看待云端和本地化的两条发展路径？

　　方汉：

　　并不是任何情况下都需要一个1千亿或者是1万亿参数的模型，在很多情况下，一个几十亿参数的小模型，甚至一个几亿参数的小模型也能很好地完成工作。那么长期来看本地部署我觉得对于一些垂直行业以及中小企业的特定场景来说是非常必要的，这样不仅能降低成本，而且还能更灵活地去应对业务场景。而对于我们需要高质量以及大规模的应用的时候，那么这时候云端部署就成为一个需求，所以说我认为这两点也并不矛盾，它们是长期补充的情况，而且各自适用的场景也不一样，就像既有公有云，也有私有云一样，那么这比方可能跟这个类似。那么中外大家也知道，在海外公有云大于私有云，在国内私有云市场大于公有云市场，所以说我认为这两者并不矛盾，可能也是一个长期并存的局面。

　　见智研究：如何看待大模型的安全问题？

　　方汉：

　　这里我还要更正一下，就是说为什么是 OpenAI 的大模型取得了成功？其实是在之前 Facebook 和谷歌他们也发布了自己的大模型，但是由于这种言论安全上的问题，他们的模型受到了群众的大力抨击，因而就回撤了。而也就是说 OpenAI 的这个大模型取得成功，本质上就是因为他们在言论安全上取得了很好的进展，可以控制大模型生产出更多就是有害的言论。比如说文本预训练，大模型从出生之初就是对于它的安全性就是一个研究的重点，比如说我们有人类有很多种方法可以控制住大模型，让它不深，不生产出虚假和有害的内容，而且这种自监管，它其实也会越来越完善。所以说从长期来看，我觉得这个行业的安全性其实是非常有保障的，因为对于这种就是言论跟安全的监督的技术研究，一刻也没有停止，而且进化速度也比较快。所以说我觉得在可预见的未来，它起到的正面作用会远远大于它的负面。

　　见智研究：昆仑天宫未来会赋能哪些行业？

　　方汉：

　　它涉及的行业实在太多了，在电脑里面完成闭环的话，那么这项工作或者说这个行业受到 AI 的影响是最大的。

　　举例子用 AI 去玩游戏，因为玩游戏本身就是在电脑里面闭环完成的，但是如果牵扯到线下的生产制造，然后交通运输等，跟线下只要发生一点关系，比如说我们去送外卖，比如说拿快递，那么这些行业其实受到的冲击就会要小很多，因为 AI 目前来说最擅长的还是解决同电脑打交道的问题。

　　那么在电脑上我们主要使用哪些生产工具来完成我们的工作？那么基本上可以看到 office 的自处理表格和演示，然后 Adobe 公司出的各种图像美术的创作工具，然后还有各家公司出的这种给程序员使用的编程工具，那么基本上编程美术以及文本创作，这几个工具组合起来能够完成的工作，那么基本上都会受到它的极大的冲击。

　　然后目前来看应用速度最快的仍然是程序员、美术制作师以及文艺创作者，那么他们受到的冲击可能是最大的。但是长期来看，所有在电脑里面可以完成闭环的行业一定会受到非常大的冲击，我们必须拥抱这个变化，让自己就是这个行业能够快速地升级换代。

　　见智研究：为什么大家对游戏和 AI 结合进展很关注？

　　方汉：

　　游戏本质上是娱乐产业，而现在的游戏产业更新速度非常快，也愿意拥抱像 AIGC 和通用人工智能这样先进的技术，这是第一个原因。第二个原因是，游戏是对现实世界的一种简单模拟，因此大家也比较关心这方面的应用。此外，AI 在游戏中的应用可以预测对于一个简单世界的干扰，以及对于现实世界的改进，这也是引起关注的原因之一。

　　同时，游戏需要涉及文本、图像和编程等多个方面，而这恰恰是目前AIGC工具最擅长的几个方向，因此AI在游戏中的应用也是一个热点话题。总之，大家对游戏和AI的结合和落地进展关注度高也是很正常的。

　　见智研究：AI赋能浏览器效果如何？

　　方汉：

　　浏览器本身是一个重要的平台，可以满足互联网长尾应用的需求。尽管超级APP在移动互联网时代已经能够完成许多工作和获取信息，但是有很多长尾需求无法使用超级APP来完成，这时候浏览器能够很好地满足这些需求。此外，浏览器与搜索引擎有天然的联系，它是搜索引擎的重要入口。

　　然而，目前的文本预训练大模型存在两个问题。第一个问题是它输出内容的时效性一般滞后于最新的信息进展。第二个问题是输出内容的准确性需要经过考证。因此，将预训练大模型与搜索引擎结合起来可以解决时效性与准确性问题。因此，预训练大模型与浏览器以及搜索引擎结合是一个非常完美的配合。我们非常看好浏览器与预训练文本、预训练大模型以及AIGC的结合，这是一个非常长期的方向，能够满足大多数长尾需求。

　　从逻辑上来看，这种需求的干性程度非常强。也就是说，通过在浏览器中使用预训练的大型语言模型，用户可以更方便地使用这种能力。因此，这种结合非常天衣无缝，我们非常看好它的前景。同时，我要指出的是，这个结论是基于我们的观察和推断，具体数据仍需等待更长时间的观察和分析。

　　见智研究：除了游戏，公司还有哪些与 AI 相关的业务？

　　方汉：

　　首先，在上市前，我们主要以游戏为主营业务。上市后，我们依托游戏进行了大量的海外拓展，并逐渐转型为以内容和社交为主的综合性互联网公司。目前，我们旗下拥有全世界第三大的独立浏览器Opera，全世界最受欢迎的音乐社交平台Starmaker，以及传统游戏业务。

　　那么，为什么我们会介入到这次预训练大模型的研发中呢？实际上，这也与我们是一家内容公司有关。作为内容公司，我们非常关注使用 AI 生成内容的进展，因为这对整个内容生成领域都是一种范式上的革命。因此，在2020年6月，我们注意到了GPT-3这个大模型，并认为它将是 AIGC 领域的一个巨大的里程碑。因此，我们从那时开始成立团队，追踪预训练大模型的研发。在2022年的战略会议上，我们也提出了公司整体方向是全力以赴投入到 AIGC 领域。作为一家内容公司，我们一直非常关注 AIGC 的技术进展，并紧跟国际先进水平，以便开展我们自己的工作。总之，作为一家全球综合性互联网公司，在 AIGC 方面的投入是非常必要和正确的。

　　见智研究：有如何看待扩散模型应用以及缺点?

　　方汉：

　　在图像生成领域，这种叫 diffusion model分散模型，实际上是取代了之前大家常用的GAN 对抗网络，它用来生成图片的时候其实效果并不是很好。但是当引入了 diffusion 模型之后，整个图片生成的进展可以说是一日千里，目前完全可以替代人类的工作。

　　当然，我觉得未来有可能会出现新的模型来取代它，但是目前分散模型仍然是最好的文本生成图像的一个模式，它的应用方向就非常广了，原来需要美术完成的工作，基本上都可以通过分散模型来解决。据我所知中国所有出海电商都已经采用分散模型来生成电商的广告图片。

　　这个优化速度其实是非常快的，在早期扩散模型可能需要的内存至少是 8G 以上，然后最新优化的速度已经有人能在 1G 以下的这种苹果手机上去复现这个扩大模型。

　　对于扩散模型来说，生成速度其实不是它的痛点，它最大的痛点是可控性，也就是说一开始大家可以判断究竟是 AI 画的还是人画的？比如人的手画得不好，那这个就是可控性的问题，但这些问题都在迅速地被解决。

　　在斯坦福的一个研究者提出了 ControlNet 之后，图像生成的可控性已经得到了极大的提高。随着技术的进步，目前一旦技术取得突破之后，针对这门技术的优化以及各种改进，在开源模式下迭代速度是非常快的。

　　我们可以看到文本生成图像在短短不到 6 个月的时间内，已经飞速的迭代了很多的功能，弥补了很多特性。目前文本生成图像的可用性已经非常强了，您说的这些问题我认为在很短的未来就会全面得到解决，这些都不是根本性的问题。

　　见智研究：未来国内是否会出现多种大模型之间的商业竞争？

　　方汉：

　　任何一个领域都会有商业竞争，我觉得这是毋庸置疑的。但是大模型这个领域，我认为首先大家竞争的是谁是第一？我认为会有 2 到 3 家最终胜出，然后在通用大模型之外，针对各个行业的垂直大模型，针对特定场景的应用大模型则会长期存在。

　　所以说我认为这个竞争是一个长期的局面，而且大模型本身也在不断地迭代，从文本大模型到多模态的大模型，我认为这个竞争会是一个长期持续的过程，先发者会凭借他们的先发优势在商业上获得很大的成功，后发者则可能要付出更多的努力，在算法层做更多的优化，直到能够超过先行者的技术指标才能获得商业上的成功。

　　或者在一个大模型尚未涉足的垂直行业进行自己的深耕，细细做也会获得自己的商业回报。所以总而言之，我觉得这个竞争是一个长期而紧张的过程，谁也不能躺在这个功劳簿上一劳永逸。

　　见智研究：哪类型的公司未来发展潜力比较大？

　　方汉：

　　像传统的生产制造、交通运输等这种工业其实受AI影响相对较小，但是像互联网产业、内容产业，它受的影响一定是最大的。

　　第二个判断标准是从技术难度上来说，目前进展最好的是文本，其次是图像，然后再往下是视频和音乐，那么受影响最大的也是依次从文本到图像，再到音乐，再到视频。从内容领域，那么影响最大的可能是文学创作、动漫，、短视频、长视频，电影电视。

　　见智研究：体量小的公司在大模型研发上该如何扬长避短？

　　方汉：

　　首先体量小的公司我觉得一定是不要盲目的求大求全，一定是这要针对最熟悉的行业，最熟悉的业务领域去做这种大模型的定制或者二次开发。

　　还有一条路就是因为现在开源的大模型非常多，基于开源的大模型做二次开发也是一个非常好的切入途径。

　　第三，我认为对于中小企业来说，并不一定要盲目去追求大模型的开发，而应该把大模型的应用搬到自己的工作重心中去，这样其实在商业上可以获得更好的收益，同时在你获得更好的收益之后，也可以反哺在预训练大模型方面的工作。所以我觉得总体而言还是要就是实事求是，脚踏实地，然后务实地去看待这次竞争。

　　风险提示及免责条款

　　市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。