嘉宾:昆仑万维董事长兼CEO方汉
“AI时代下个10年出现的巨头,一定是面向C端用户的免费订阅公司。”这是昆仑万维董事长兼CEO方汉,对国内人工智能产业发展的未来预期。
过去两年间,随着ChatGPT的出现,方汉所领导的昆仑万维,由于在生成式AI领域的提前布局备受关注。在技术创新以及新品发布上,公司也经历了快速的迭代。
以近期昆仑万维宣布“天工3.0”基座大模型与“天工SkyMusic”音乐大模型开启公测为例,天工3.0实现以400B参数暂居全球最大规模开源MOE大模型的同时,距离上一代天工2.0发布,仅只过去了两个月。
快速迭代的背后,国内大模型在技术演化过程中如何实现各行各业深度融合?未来,国产大模型发展方向如何?而昆仑万维又该如何在激烈的市场竞争中占据有利地位?
近日,新浪科技《科创100人》与方汉进行了一场对话,透过双方对谈内容,或许我们能找到一些答案。
“取得垂类SOTA地位,就可获得增长红利”
当前,越来越多的国外用户发出“OpenAI好像变懒了”的声音,Google、Anthropic等海外领先AI企业推出的系列AI模型,也正在不断收获好评,在越来越多的领域超越GPT-4。
在国内市场,百度文心、昆仑万维、科大讯飞、抖音云雀、京东言犀、智谱 AI ChatGLM等均向AI大模型进行探索,覆盖了内容生成、智能问答、IT支持、数据分析、智能识别等多个场景应用,均对更好融合不同模态的数据展开探索。
在方汉看来,垂类数据是中国公司上场和发力的方向。“只有有了垂类高质量数据,才有机会在垂直场景里面做到 SOTA(指前沿模型)率先获得垂直场景的红利。”
众所周知,OpenAI的AI红利期算比较长远,但是OpenAI也不能完全做到一切皆能。方汉看到,“在AI音乐、漫画、社交、自动驾驶等领域,对于国内科技企业来说或许是可以拥抱的垂类SOTA红利。”
方汉相信,“要在垂类上取得SOTA,只要你在某一个区域某一个语言取得SOTA的地位,你就可以获得增长红利高处成长,因为这个是解决有和没有的问题,而我们也非常有信心在这些领域取得不同垂直的SOTA从而达到高速成长目的。”
据介绍,为此昆仑万维构建了六大AI业务,AI 大模型、AI 搜索、AI 音乐、AI 视频、AI社交、AI游戏几大业务矩阵。“作为一家科技公司,我们入局大模型早,目前基座模型能够做到全国前五。但是在AI音乐等技术领域,我们一直是国内的SOTA。”方汉说。
“新巨头三要素,AI、C端、免费”
在国内AI大模型领域,百度文心一言开放了C端+B端,腾讯的混元大模型涵盖NLP、CV、多模态、文图等大模型,科大讯飞推出的新一代认知智能大模型讯飞星火可C端使用,具有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务等等。
通过国产大模型产品的一次次更迭中不难看出,企业们正通过设计合理的模型结构、利用跨模态学习技术、引入注意力机制和自监督学习以及结合实际应用场景进行优化等措施,不断地提高多模态融合模型的性能和效果。
“AI时代,下个10年出现的巨头一定是面向C端用户的免费订阅公司”,在方汉看来,“随着端侧推理的到来,会有新的产品模式、新的商业模式出现,C端行业会受到比较大的变化和重塑。”
就市场而言,无论是社交、音乐、游戏还是内容平台,昆仑万维的主营业务都正在积极主动地拥抱AI技术。对于昆仑万维而言,AI的“转型”并非被动应对,而是一次积极主动的革新与升级,这不仅是其未来发展的关键阶段,更是决定其能否开创全新格局的重要契机,这也是方汉这位30年互联网老兵的AI新征程。
据了解,方汉从1995年开始做互联网的研发工作,到现在为止经历了三个周期。从互联网到移动互联网,再到目前的AI,以他的经验来看,最后成功企业都是免费加上C端这两个重要的模式。
然而,大模型如今居高不下的推理成本使得面向C端庞大用户群体提供免费服务的压力巨大。为此,方汉总结出了三个路径:以优化模型来降低推理成本、让基于AI手机和AI PC而产生的端侧推理降低推理成本以及基于AI的UGC平台。这三个路径分别对应大模型产业发展的不同阶段。
首先,优化模型降低推理成本路径贯穿大模型技术发展,然而,模型性能与推理成本是个双向发力的“悖论”,一方面,随着技术发展,如今每个用户使用大模型服务时企业需要付出的推理成本在不断下降;可另一方面,随着模型性能的提升、功能的强化,模型推理的成本又在不断上升,始终处于一个动态拉扯的阶段。
其次,方汉认为,端侧AI是大模型的“终局”。未来,AI手机、AI PC等硬件一定会广泛普及,一部分推理成本将成为用户的购机成本。不过,由于用户存在换机周期,端侧AI还需要3—5年的普及期。
而在端侧AI普及之前,在这场大模型的“中场”阶段,方汉最看好AI UGC平台。“对于AI的UGC平台而言,1%的创作者使用AI,99%的消费者只要消费AI生成的内容就可以了,是非常理想的中期商业模式。”
在方汉看来,“未来十年,AI仍然是互联网或者技术投资的一个主赛道,竞争还远远没有到来,高潮也远远没有到来。”
拥抱AI技术,思考颠覆式创新是方汉对未来国内科技企业发展方向的理解。在他看来,只有理解AI技术的边界以后,创业者才能做出更好的颠覆式创新,产品和运营才能思考什么是AI能够赋能的,能够创造出新的商业模式和产品模式。
“AI入局音乐圈,让文化平权”
近日,昆仑万维宣布新一代天工3.0大模型发布,该模型采用4000亿级参数MoE混合专家模型,超越了3140亿参数的Grok-1,宣称目前最大的开源MoE大模型。
今年2月,昆仑万维正式发布新版MoE大语言模型“天工2.0”,如今,距离上一次“天工2.0”发布刚过去两个月,最新一代的天工3.0再次发布。据介绍,相较于上一代天工2.0 MoE大模型,天工3.0在模型语义理解、逻辑推理,以及通用性、泛化性、不确定性知识、学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。
“其实昆仑万维对大模型的研究远比想象中要早得多,时间回到2020年,这一年ChatGPT还没有火,但当时昆仑万维就押注了AIGC赛道。”方汉表示。“昆仑万维的业务中大量涉及内容生产,2020年GPT-3出来的时候,我们立刻意识到(大模型)将会彻底颠覆内容生成行业。”
“那时候行业还没什么GPT路线的人才,都是BERT路线的,我们想抄都没得抄。只能沿着GPT的路线辛辛苦苦做了3年,但这些苦难也锻炼了我们独立解决问题和处理问题的能力,我们把这段经历总结为‘艰苦奋斗,独立自主’。”方汉说。
“天工3.0”基座大模型发布的同时,昆仑万维“天工SkyMusic”音乐大模型也正式开启公测。
“中文人声清晰度、咬字上更好,整体听上去更清晰”“天工做得明显比SUNO好听”。这是自“天工SkyMusic”启动邀测以来收到的用户反馈信息,邀测当日便被网友热议。网友亲测后还表示,其玩法也具有新意,可以对歌曲进行改编、二创,完全可以展示用户UGC的AI音乐作品,这些作品也展示了“天工SkyMusic”为普通人提供的创作平台和可能性。
在方汉看来,选择入局音乐圈,其实意义非凡。
“在尼日利亚拍摄一部电影的成本大概是2万美金,当地生产力太落后了,没有能力去制作一个好的电影作品跟强势的欧美文化去对抗。”方汉认为,目前市场上是通过大投入来创作好内容,音乐创作也同样是一项高成本、高风险的投资。而借助AI,全世界的普通人都可以进行低成本创作。
而天工SkyMusic的推出,极大降低了音乐创作门槛,人人皆可以以歌明志。随着AI大模型技术在AIGC领域的进一步落地,未来,越来越多小语种文化也能够借助AI创作内容。在方汉看来,“从本质上来说,这也起到了文化平权的作用。”
在他看来,如果从静态的角度看待行业,AI音乐觉得是“切走了音乐行业的蛋糕”,但如果动态来看,技术的进步能够让音乐市场越来越大,行业蓬勃发展,产生新的内容生态、音乐业态。
“中国的AI技术和应用将不断推动全球音乐产业的创新和进步,为人类文化的繁荣和发展做出更大的贡献。”方汉表示。