chaguwang.cn-查股网.中国
查股网.CN
岩山科技(002195)内幕信息消息披露
 
个股最新内幕信息查询:    
 

岩山科技携子公司突围国产大模型 Yan架构能成Transformer的挑战者吗?

http://www.chaguwang.cn  2024-01-25  岩山科技内幕信息

来源 :每经网2024-01-25

  百模大战中,玩家的角逐方式越来越多样化。

  1月24日,岩芯数智正式发布了国内首个非Attention机制的通用自然语言大模型——Yan模型,据《每日经济新闻》记者了解,这是业内少有的非Transformer架构大模型。

  资料显示,上海岩芯数智人工智能科技有限公司(以下简称“岩芯数智”),是岩山科技(002195,SZ)旗下子公司,是一家以认知智能为基础、专注于自然语言理解及人机交互等核心技术的创新型企业。此前,岩芯数智已自研自建了百亿级参数的自有模型。

  上市公司成立子公司突围国产大模型的情况不算特别,但岩芯数智在大模型赛道上的发展路径却比较少见。

  Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,是大多数大模型的“内核”。在Transformer已经占据人工智能领域半壁江山的今天,岩芯数智却选择了另辟蹊径,转而寻求非Transformer的更多可能性。

  作为行业内少有的非Transformer大模型,Yan模型用全新自研的“Yan架构”代替Transformer架构。

  岩芯数智董事长陈代千在接受《每日经济新闻》记者专访时表示,虽然大模型的热度在去年才因为GPT升温,但YAN团队早在三年前就已经开始布局、落地非transformer架构相关的事情。

  “我们认为通往通用人工智能道路肯定不止一条,道路之间也互有利弊,探索过程中也充满不确定性。”陈代千说。

  换一条路走

  聊大模型,很难不提及Transformer。甚至可以说,Transformer的出现是深度学习历史长河中的一个里程碑。

  中科深智创始人兼CEO成维忠便曾在接受《每日经济新闻》记者专访时表示,早期,可选择可尝试的路很多,“一直到2017年谷歌推出Transformer,我们找到了方向,慢慢道路就清晰了。”成维忠提到,ChatGPT的底层技术也是Transformer,“当时,谷歌基于Transformer做了很多demo,我们也很兴奋,慢慢就把精力聚焦到这个方向上。”

  记者了解到,凭借着其强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,不仅成为自然语言处理领域的主流模型架构,还在计算机视觉、语音识别等多个领域展示了其跨界的通用能力。

  岩芯数智CEO刘凡平在发布会上的演讲中提及了大模型赛道的现状。

  他表示,目前主流的大模型系列有三个:OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。

  刘凡平表示,“国内的大模型基本都延续了这三个系列,或是它们的一个子版本演变而来。这三个系列都是基于Transformer架构衍生而来,成为大模型的支柱。”

  刘凡平提到,百花齐放是“百模大战”的表现,千篇一律是因为大家都是(基于)Transformer架构的。

  即便Transformer架构已经成为主流,但在部分业内人士看来,Transformer并非完美。

  以刘凡平为例,作为前百度资深工程师,刘凡平从中国科学技术大学毕业后,一路成为上海市科技专家库专家,还出版过多本技术作品。

  他指出,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。

  在他看来,随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不断增长。

  刘凡平提到,在全球范围内,一直以来都有不少优秀的研究者试图从根本上解决对Transformer架构的过度依赖,寻求更优的替代办法。

  或许是基于种种考量,岩芯数智走了另一条路。陈代千对记者透露,CEO刘凡平和他的团队拍板了这一路线。

  “很多事情我觉得是一个自然而然的过程,大家在想怎么去优化这个Transformer结构的时候,自然会觉得我们是不是要换条路走。”陈代千说。

  

  1月24日,岩芯数智举办“新架构,新模力”大模型发布会图片来源:每经记者陈婷摄

  为落地而生?

  事实上,刘凡平及团队并非一开始就打定了主意要放弃Transformer架构。

  刘凡平对记者表示,Transformer架构的主要问题在于训练成本太高了,交付成本也高,成本难以覆盖客户的付费,需要降低边际成本。

  他对记者表示:“这种情况下,如果我们自己一直做下去,我们做一单亏一单。解决这个问题也不容易,从早期的基于Transformer架构、改进Transformer架构,到放弃Transformer架构,这是一个漫长的过程。”

  在很长一段时间,刘凡平和团队一方面改进Transformer架构,另一方面尝试新的模型架构。

  岩芯数智的研究团队历经1000多个日夜,超过几百次的设计、修改、优化、对比、重来,研发出了“Yan架构”,基于Yan架构的通用大模型也应运而生。

  作为非Transformer架构大模型,岩芯数智发布的Yan模型有什么特别之处吗?

  据岩芯数智方面介绍,Yan模型同时具备了私密化、经济化、精准化和实时性、专业性、通用性等六大商业化落地能力,是“为落地而生”。

  记者从岩芯数智方面了解到,Yan架构的大模型去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,提高了建模效率和训练速度,实现了效率的提升和成本的降低。

  除了成本更低之外,Yan模型的运行门槛也更低。

  据了解,当下,许多大模型会通过剪枝、压缩等主流技术手段来实现在设备上的运行,而Yan模型100%支持私有化部署应用,不经裁剪和压缩即可在主流消费级CPU等端侧设备上无损运行。

  无论如何,Yan架构和Yan模型究竟还有多大的潜能,还需要业内给出公允的评价,更需要市场来检验。

  在商业化前景上,刘凡平对记者透露,公司已有的客户是一些大型企业,“有了Yan之后,我们会延伸到中小企业中去,在更低的成本下使用AI服务。同时由于Yan可以在CPU上正常应用,所以我们也把一些隐私性较强的场景纳入我们的落地范围。”

  此外,刘凡平表示,Yan模型除了面对中小B客户之外,也会选择离线、隐私性较强的场景。在他看来,Yan既可以面向B端客户,也可以面向C端客户。

  陈代千还向记者提及,岩芯数智正在考虑海外布局。与此同时,岩芯数智在未来也有吸纳外部融资的可能性。

  “首先是考虑(海外)客户端,融资的话,我们也不会排斥是国内投资人还是海外投资人,我们会先以应用和客户为出海落脚点。”陈代千说。

  会出现更多的自研架构吗?

  2023年将是大模型赛道更为火热的一年,有了Yan架构“打头阵”,市面上会出现更多的自研大模型架构吗?

  深度科技研究院院长张孝荣对《每日经济新闻》记者表示,过去,国内发布的大模型多基于Transformer架构,原因可能在于Transformer是开源架构,并且已经在自然语言处理领域得到了广泛的应用和验证(可用,能用)。

  在张孝荣看来,大模型架构的研发旷日持久,2024年,有可能会出现少数几个新模型,但很难会出现更多自研的大模型架构。

  北京市社会科学院管理研究所副研究员王鹏对《每日经济新闻》记者表示,国内自研的大模型架构的前景是非常值得期待的。

  王鹏认为,随着深度学习技术的不断发展,Transformer架构虽然取得了很大的成功,但也存在一些固有的问题和限制。因此,探索新的架构和思路,有望为自然语言处理领域注入新的活力和创新。

  “过去,国内发布的大模型多以Transformer为基础,主要是因为Transformer在自然语言处理领域取得了非常显著的效果,并且得到了广泛的应用和验证。此外,Transformer架构也相对成熟和稳定,有较高的可靠性和易用性。但是,随着技术的不断发展和需求的不断变化,自研大模型架构的需求和重要性也逐渐凸显出来。”王鹏说。

  王鹏认为,2024年是否会出现更多自研的大模型架构取决于多个因素的综合影响。一方面,随着技术的不断进步和创新,自研大模型架构的可行性和优势会逐渐增加;另一方面,市场需求和应用场景的变化也会影响大模型架构的选择和发展方向。

  “因此,未来自研大模型架构的发展还需要根据实际情况进行观察和分析。”王鹏说。

  值得思考的是,采用Transformer还是自研架构,对相关企业的未来发展是否会产生深远影响?

  张孝荣认为,在发展路径上,企业选择使用Transformer架构还是自研架构,可能会根据不同的应用场景和需求出现显著区别,“一方面,自研架构可能为企业提供更定制化的服务,更好地满足特定需求;另一方面,自研架构的开发和维护可能需要更多的资源投入。因此,企业在选择架构时需要权衡各种因素,包括技术成熟度、研发成本、市场需求等。”

  王鹏则对记者表示,在大模型的架构选择方面,运用Transformer还是自研,企业在发展路径上可能会出现显著区别。他认为,一方面,采用Transformer架构可以快速搭建和训练大模型,并利用现有的工具和资源进行优化和调整;另一方面,自研大模型架构可以更好地满足特定应用场景的需求,提高模型的性能和效果。

  “企业在选择大模型架构时需要根据自身的实际情况和需求进行综合考虑和权衡。同时,无论采用何种架构,都需要注重模型的可解释性、鲁棒性和可扩展性等方面的问题,以确保模型的稳定性和可靠性。”王鹏说。

  2024年刚刚开始,自研架构的进一步涌现给新一年的大模型赛道带来了更多的不确定性和新的可能性。长期来看,Transformer大概率不是大模型的“唯一解”,但其已经在业内收获了广泛的应用和验证,对于Transformer的挑战者来说,发布自研架构也不过是踏出了“万里长征”的第一步。

有问题请联系 767871486@qq.com 商务合作广告联系 QQ:767871486
www.chaguwang.cn 查股网