5月30日,星环科技收盘于129元,与去年10月18日上市时的发行价47.34元/股相比,涨幅超过170%。今年3月以来,被称为“国产大数据基础软件第一股”的星环科技,受益于政策推动国产替代大潮,股价便一路走高,尤其于5月26日“向星力·未来数据技术峰会(FDTC)”上宣布,推出大模型持续提升和持续开发工具Sophon LLMOps、金融大模型无涯、大数据分析大模型SoLar“求索”等新产品之后,更是已连涨三日。
“现在只是百模大战,未来会有千模、万模。”星环科技创始人、CEO孙元浩告诉《IT时报》记者,随着大模型时代的到来,每个企业都将打造自己的专属大模型,每个人都会有自己的个性化AI助手,人人都是数据科学家,人类与数据的交互方式将发生重大变革,他并不认为通用大模型可以“包打天下”,至少在很长一段时间内,各行各业需要经过“专业知识”训练过的行业大模型。
这个判断与中金计算机首席分析师、研究部副总经理于钟海不谋而合。于钟海认为,未来大模型行业的市场格局将类似一个“蛋筒雪糕”,圆锥体式的蛋筒尖是通用大模型,它可能是很多行业的底座,但未来能做大做强的通用大模型不超过三家,而蛋筒上的不同雪糕球则是金融、医疗、教育、政务等融合了“knowhow”(关键诀窍)的行业垂直模型,“这个模型高度类似于当前的公有云与私有云市场格局。”
每个公司都将有一个大模型
“所有行业都值得用大模型重新做一遍!”“用大模型将公司所有业务都重新做一遍!”由ChatGPT掀起这次全球AI热潮中,激进的公司,如阿里、百度?,已摆出“ALL IN”的姿态。
的确,相比争议颇多的“元宇宙”“自动驾驶”,生成式AI无论技术路线还是商业模式,都清晰很多。很多人仿佛坐上“时光机”,回到2012年Geoffrey Hinton深度学习小组在ImageNet 夺冠的那一刻,ChatGPT将再次让AI改变人类生活,新十年大幕即将拉开。
然而,面对百度文心一言、阿里通义千问、360智脑、云从从容等令人眼花缭乱的各种大模型,一个显而易见的事实是,通用超大模型虽好,但训练、维护技术要求高、训练难度大、费用惊人,而且对特定领域的适用性不佳。
“当大模型在行业中落地部署时,我们很快发现一个挑战,虽然大模型在理解人类自然语言、归纳、文本生成、图像生成上有惊人表现,但它无法理解行业术语,也不能执行行业的特定任务,无法针对行业做分析、推理和决策。”孙元浩认为,目前的通用大模型相当于本科低年级水平,只能做实习生,却远称不上专家,“企业需要一套工具在大模型基础上训练和持续改进。”
此次星环科技推出的Sophon LLMOps是一个机器学习模型全生命周期管理的工具平台,可以针对大语言模型及其衍生数据、模型、应用问题,提供LLMOps的工具链,帮助企业构建自己的行业大模型。
简而言之,星环科技让每个企业拥有了在通用大模型基础上进行二次开发的能力和工具。首先,Sophon LLMOps具有样本仓库能力,可以对大语言模型涉及的原始数据、样本数据、提示词数据做清洗、探索、增强、评估和管理;其次,LLMOps具有模型运维管理能力,针对大语言模型的微调、持续提升、评估、对齐等需求,提供从计算框架、工具到计算、存储、通信的调度和优化支持。此外,结合星环多款大数据、数据库产品,Sophon LLMOps还可以将不同大语言模型、传统机器学习、其他流程等任务,重新编排直至符合用户实际领域和业务需求。如此几番操作,每家企业或者每个行业都能打造出专属大模型。
据了解,星环科技是金融行业首个推出金融大模型的科技公司,“无涯”亦是国内首个面向金融量化领域、超大规模参数量的生成式大语言模型,在政策和研报分析、新闻解读、事件总结和演绎推理等方面,具备强大的理解和生成能力,能够对股票、债券、基金、商品等各类市场事件进行全面复盘、传播和推演。
孙元浩透露,已有金融机构在进行专属大模型部署,预计今年下半年将有实际案例落地。
高质量数据比算力更重要
大模型会一直“大”下去吗?答案应该是否定的。数据显示,ChatGPT使用了1750亿参数,GPT-4虽没有公布详情,不过业内普遍认为参数已突破万亿。有机构预测,到2030年的时候,大模型训练的参数可能会达到10万亿,但训练成本会降低60万美元,性价比提升的原因之一是,高质量数据将被投喂,以此产生高质量AI应用。
“数据比算力更重要”,于钟海表示,人工智能发展最大的问题永远是收集新数据、数据的工程、数据的转化,“数据问题解决了,AI才能成为时间的朋友。”
然而,随着数据处理从多模型向多模态转型,从单一模态向多模态进化,企业数据分析来到新的次元。
今年伊始,由于与AI大模型的高度协同功能,向量数据库以惊人的速度流行起来。最古老的数据库类型是SQL或关系数据库,其中所有数据都是结构化的;此后,Web 2.0公司不断增长的需求引发了NoSQL革命,数据库变得更加灵活,出现了能够处理更多非结构化数据的数据库,处理的数据数量更加庞大。现在,全球对人工智能应用的追捧,激发了另一种被称为向量数据库(vector databases)的新市场。
一份东北证券的研报对向量数据库如是解释:它是专门用来存储和查询向量的数据库,其存储的向量来自对文本、语音、图像、视频等的向量化。比如一张256*256的图片,可以表现为一串数字组成的高维度向量,每个数字可以代表像素的位置、色彩等信息。
由于向量数据库自带多模态功能,这意味着它能够通过机器学习方法处理和理解来自不同源的多种模态信息,数据向量化过程使得这些不同模态数据的内部隐藏信息得以暴露,进而为多模态应用提供支持。
星环科技的自研向量数据库,拓展了大语言模型时间和空间维度。使用星环科技的向量数据库+分布式图数据库,可以构建基于大模型的应用,让每个人都拥有自己个性化的AI助理。
比如,当用户与大模型对话的时候,AI会把这个问题转成高维向量,先进行语义搜索,找到相关信息,再把它拼接成提示词并发给大语言模型,最后生成答案。
向量数据库解决了大模型训练“数据陈旧”的难题。比如ChatGPT的训练数据库截止zhi于2021年,但从实际体验看,它似乎对最近发生的事情也了如指掌,奥秘就是向量数据库。孙元浩解释,向量数据库就像人脑的“海马体”,其存储的最新信息向量能够极大地拓展大模型的应用边界,从而让大模型的“长期记忆”成为可能。
AIGC热更是将加速了向量数据库的投资热。有证券公司梳理,随着大模型带来的应用需求提升,4月以来多家海外知名向量数据库创业企业传出融资喜讯,星环科技的本轮股价上涨也被认为与此相关。