以ChatGPT和GPT所代表的大模型,已经在国内形成了“海啸效应”,几乎所有的科技公司都在想方设法进入大模型的赛道。背后的核心驱动力,就在于大模型的最大价值在于普遍提升个人生产力,而各行各业的公司都在积极寻找应用大模型和生成式AI的机会,则是希望能够更好地提升全员生产力。
而被誉为“国产大数据基础软件第一股”的星环科技,自然也不会缺席这一场大模型的盛宴——在5月下旬举办的向星力·未来数据技术峰会(FDTC)上,星环科技行业大模型战略布局全面亮相,本次星环科技不仅发布了大模型应用构建全栈软件工具Sophon LLMOps,还基于自身在行业应用领域的积累,推出了业界首创的金融大模型“无涯”、大数据分析大模型SoLar“求索”两大行业大模型。
与此同时,为了顺应未来数据处理走向“智能化、多模态和平民化”的大趋势,星环科技也在大数据基础软件领域展开了持续的迭代和进化,正式发布实现“湖、仓、集”一体化的多模型大数据基础平台TDH 9.3;分布式分析型数据库ArgoDB 6.0、分布式交易型数据库KunDB 3.2;构建海量数据互联智慧“星”图的分布式图数据StellarDB 5.0;面向多元场景的高性能时序数据库TimeLyre 9.1;提出六易、三仓、两中心的新一代智能分析全流程平台Sophon;数据要素流通产品Navier 3.1等产品,能完成国外相应产品的国产替代,助力更多的中国企业能够更好的实现数据化和智能化的转型,并在数字经济新时代寻找到更多的新模式、新业态和新服务。
正如星环科技创始人、CEO孙元浩所言:“未来人人都是数据科学家,人类与数据的交互方式将发生重大变革,语言、视频等自然语言的交互方式将逐渐普及,每个人都将需要一个‘虚拟业务助手’。”也正因此,星环科技希望通过持续的技术创新,帮助用户应对大模型时代的挑战,同时更好的释放海量数据产生的新价值。
战略布局行业大模型赛道
毫无疑问,大模型(也称预训练模型、基础模型等),是典型的“大数据+大算力+强算法”结合的产物,也是凝聚了大数据内在净化的“隐藏式知识库”,更是实现多种人工智能应用的通用载体,其重要性可见一斑。
而随着过去多年的技术沉淀,可以看到目前大模型也正在与企业应用迅速结合,重塑企业应用中人与数据的交互方式,同时也产生了越来越大的商业价值。其中最具代表性的,就是在自然语言处理领域,OpenAI的GPT-4模型已经被用于各种任务,包括文本生成、问答和语言理解等;而在计算机视觉领域,Facebook的DETR模型同样也被广泛用于图像识别任务。
作为深耕大数据基础软件的星环科技,自然也需要跟上大模型带来的巨大商业机会,但如何更快、更好地切入大模型的赛道呢?为此,星环科技的做法是,以“双管齐下”的方式战略布局大模型市场,即大模型构建的工具链,以及行业大模型两大领域,具体而言:
一方面,在大模型工具链方面,星环科技推出了大模型持续提升和开发工具Sophon LLMOps,实现领域大模型的训练、上架和迭代。Sophon LLMOps主要服务于大模型的开发者,帮助企业快捷地构建自己的行业大模型,通过大模型基础设施,形成具备“新型人机交互”且“敏捷可持续迭代”的人工智能应用。
对此,孙元浩表示:“我们在实践中发现,大模型和应用之间的鸿沟实在是太大了,可以说已成为整个行业发展壮大的壁垒,而且大模型本身也是需要行业知识积淀的。基于此,星环科技的策略就是为行业用户或者合作伙伴提供一款工具,帮助他们更快地构建大模型,加上他们自身的行业知识,那么二者相互的结合,就能更好地打造出适合每个行业的大模型应用。”
值得一提的是,星环科技Sophon LLMOps前后研发超过了六年的时间,跟此前的MLOps相比,本次新发布的LLMOps大大强化了大模型的能力,包括Sophon LLMOps拥有自己的样本仓库能力,覆盖训练数据开发、推理数据开发、数据维护等工作,对大语言模型涉及的原始数据、样本数据、提示词数据做清洗、探索、增强、评估和管理等。
在此基础上,Sophon LLMOps也具有模型运维管理能力,除了传统MLOps的六大“统一”——统一纳管、统一运维、统一应用、统一监控、统一评估、统一解释外,针对大语言模型的微调、持续提升、评估、对齐等,Sophon LLMOps也提供从计算框架、工具到计算、存储、通信的调度和优化支持。
此外,Sophon LLMOps还具有大语言模型和其他任务的编排、调度和上线能力,并提供Agent、Ops、DAG,结合星环科技的多款大数据、数据库产品,如分布式向量数据库Hippo和图数据库StellarDB等,能够将不同大语言模型、传统机器学习、其他流程等编排成符合用户实际领域和业务需求的任务,为客户提供服务。
另一方面,在行业大模型方面,和其他公司主要做通用的大模型不同,星环科技则是聚焦金融行业的大模型领域,推出了业界首创的金融大模型“无涯”、大数据分析大模型SoLar“求索”。
据了解,星环科技长期深耕金融领域,服务大量金融行业客户,积累了上百万金融专业领域的语料,同时基于星环科技对图数据库、深度图推理算法的技术,形成了大规模高质量的金融类事件训练指令集,而二者共同铸就了星环科技开发金融领域大语言模型的坚实底座。
星环无涯是一款面向金融量化领域、超大规模参数量的生成式大语言模型。该大模型使用了上百万的专业金融语料,其中涵盖了研报、公告、政策、新闻等高质量的自然语言文本来作为基础大模型的二次预训练语料,使得无涯具备对包括基本面、技术面、消息面在内的金融通识领域准确的理解能力。
同时,星环无涯也构建了包括政策、舆情、ESG、风险、量价、产业链等六类大模型基础因子集,擅长处理金融量化领域的各类问题,诸如在政策和研报分析、新闻解读、事件总结和演绎推理上都具备强大的理解和生成能力;能够对股票、债券、基金、商品等各类市场事件进行全面的复盘、传播和推演;能够生成另类的策略因子集合,构建立体的归因解释体系。无涯大模型通过多模感知+事件驱动+深度图计算,从时间和空间、深度和广度等多个方面扩展投资研究的视角,实现了全新的智能量化投研新范式。
而大数据分析大模型SoLar“求索”,是一款针对大数据行业全生命周期各种场景的大数据领域大模型,其可以衍生出众多的子领域子任务微调大模型。按照规划,“求索”大模型将具备大数据行业需求理解、推理、各类(含多模型)结构化查询语言和OpenCypher代码生成、Python/R 等常用数据分析程序代码生成、Query改写、意图识别、文本生成、嵌入向量生成、知识推理等能力;达到用户只要使用自然语言,就能借助“求索”大模型获取所需数据分析、展示和报告。
回头来看,大模型赛道的火热背后是市场需求和技术进步的双重推动,核心原因在于,随着数字化转型的加速和智能化需求的增长,各行各业对AI技术的应用越来越广泛和深入,同时,AI大模型技术本身也在不断创新和突破,呈现出多元化和多样化的发展趋势。从这个角度来说,无论是大模型应用构建工具Sophon LLMOps,业界首创的金融大模型“无涯”以及大数据分析大模型SoLar“求索”的推出,都标志着星环科技“与时俱进”地战略布局了行业大模型的赛道,而背后既是星环科技在大数据领域多年沉淀厚积薄发的体现,相信也能推动行业大模型将在更多领域和场景中发挥重要作用,从而推动人工智能产业向前发展。
多模态数据探索与创新
Gartner曾在2017年预测多模数据管理将成为未来的主要发展趋势,但其发展的速度还是远超人们的想象空间,目前可以看到多模态数据管理已成为逐渐成为主流数据库的选择。也正因此,在本次未来数据技术峰会(FDTC)上,星环科技除了推出了大模型之外,其在多模态领域的探索与创新,也是其中的亮点。
首先,在向量数据库领域。我们知道,大模型目前普遍存在的问题是,由于其训练数据的丰富程度不足和即时性不够,会严重影响模型的通用化效果,造成其“一本正经的胡说八道”,这限制了它在垂直领域的实用性。虽然此前通过人类反馈强化学习机制(RLHF)来让模型对错误的输出结果进行调整,但这种方法并不能彻底解决大语言模型的问题,而向量数据库则有望化解这一难题,它通过向量嵌入的方式,把来源权威,可信的非结构化数据转换成向量,储存到数据库中,由此能帮助大模型建立起“长期记忆”,并且减少模型生成内容出错的可能性。
为了适应这一新转变,星环科技推出了自研的向量数据库Transwarp Hippo,拓展大语言模型时间和空间维度,作为一款企业级云原生分布式向量数据库,星环Hippo支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索以及高密度向量聚类等问题。
孙元浩表示,与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能够很好地满足企业针对海量向量数据的高实时性查询、检索、召回等场景。
其次,在图数据库领域。可以看到在大模型应用以及图神经网络技术日益发展的推动下,不仅为图智能的发展提供了沃土,同时也为图库和图智能结合提供了探索的机遇。基于此,星环科技也正式发布了面向高性能分析、图智能、多模型融合的企业级分布式图数据库StellarDB 5.0。
StellarDB 5.0对存储和计算引擎进行优化,全新设计了底层数据存储结构,并优化了TEoC编译器,同时对多场景计算框架进行了深度优化,实现从实时场景到关联关系分析场景,到图算法分析场景全方位的性能提升,大幅提高客户业务效率。数据显示,StellarDB 5.0实现了实时短查询场景5倍提升,高并发上万+QPS,支持的近50种图算法平均8倍性能提升,多度关联关系场景10倍提升,解决无限扩层问题。
同时,StellarDB5.0实现了动态图功能,将图数据变化的历史全部记录下来,可以按照时间点查询图的历史变更。通过对动态图进行时间轴可视化,可以清晰、直观、便捷地对图数据变化进行分析,帮助用户更容易的发现图背后的规律。例如在金融反欺诈应用中,图结构的动态变化可以表征欺诈团伙的人员变化和交易关系变化等,从而帮助业务人员更准确、更高效地进行数据分析和预测。
此外,StellarDB 5.0也能够对接星环科技自研的深度图框架ZenGraph,将图数据库技术和深度图技术深度融合。利用图数据库的优势实现图数据快速地读取和写回,提供快速子图过滤能力,提升整个数据分析链路的处理效率;ZenGraph深度图框架可以针对不同的业务场景提供不同的深度图模型,满足多样化的业务场景,相比于传统图算法,能够从图中挖掘学习更多的特征知识,预测更精准。
在孙元浩看来:“随着大模型走向更多的应用场景,向量数据库和图数据库的叠加应用,才能更好的构建出大模型,但是也要看到,光靠向量库和图数据库也是远远不够的,未来的方向一定是多模态的,因此星环科技未来的技术路线,核心还是希望在一个平台上支持更多的多模态数据管理,让每一种数据库都能够更好地服务好大模型的应用。”
最后,在时序数据库和时空数据库方面,面对时序数据数据量大、数据分析需求高,开源系统不支持集群部署,存储和计算数据规模有限,不支持复杂分析,服务不稳定,以及缺乏安全可控性等问题,星环科技推出面向多元场景的高性能分布式时序数据库TimeLyre 9.1,该数据库在常见的时序数据上,可实现5-20倍压缩率,远优于传统数据库,数据压缩高、单节点磁盘可用容量高,可大大节约成本。
而在时空数据库方面,星环科技也推出分布式时空数据库Spacture,这款数据库“为空间而生,为变化而生”,其拥有高效时空数据分析、多样化数据类型支撑、算子下推、多种标准支持、主流生态兼容等特性,可应用于时序遥感分析、城市扩张变化检测、气象业务支持、全球高温天气预测、轨迹分析、船舶轨迹范围检索、泛在空间分析、湖泊面积统计、空间聚合统计等场景。
事实上,本次星环科技发布的向量数据库,图数据库,时序数据库乃至时空数据库等等,仅仅都只是星环科技多年来在多模态数据库领域,持续坚持技术创新的“缩影”,而背后也印证了星环科技多年来始终勇闯数据库“无人区”的态度和精神,而其在多模态数据库领域的探索与实践,对于推动中国数据库领域的技术创新价值,同样也是难能可贵的。
加速“国产化替代”进程
今年年初,国家就明确指出“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,鼓励科研机构、高校同企业开展联合攻关,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。”
而在这方面,作为大数据基础软件的提供商,星环科技同样致力于加速推进大数据基础软件国产化进程,坚持做大做实国产大数据基础软件。孙元浩告诉我:“国产大数据技术栈,星环科技现在做得比较成熟了,在这个领域我们开发了十年左右的时间,技术上星环科技已经完全可以替代国外的大数据产品,无论在功能上和性能上基本上也领先海外产品接近一代,同样星环科技也积累了比较多的成功的国产化替代案例。”
一是,在大数据基础平台领域,星环科技自研的大数据基础平台TDH和星环数据云平台TDC,可以完美地替代CDH/HDP和CDP,提升功能、性能、稳定性、易用性、扩展性、可靠性、安全、国产生态支持等能力,提供多种模型支持能力,性能提升可以达到5到100倍,原厂专业服务能力更强。
不仅如此,新发布的星环THD 9.3和TDC 3.2还以新一代湖仓集存储、多模型统一架构、综合性能提升、基于容器的资源管理技术、多租户等技术引领发展。数据也显示,在性能上,星环科技基础软件产品自研高性能分布式计算和存储引擎,整体性能是CDP 5-25倍。整体性价比是DB2 20倍,是TD 100倍;而在安全上,星环科技基础软件产品提供的容器隔离、灾备、访问控制、联邦学习、隐私保护、可信计算等技术保障网络层、加固层、治理层、流通层全方位数据安全。
二是,在交易型数据库领域,星环分布式交易型数据库KunDB可以在交易型OLTP的业务场景、高并发在线数据服务场景等,替代Oracle/ MySQL,并且提升存储计算能力、高可用能力、跨分区事务能力,能够更好的支持关键业务平衡迁移。
特别是新的KunDB 3.2版本,更是融入星环科技多年的数据库研发经验,以满足金融业务极致稳定的要求为核心,在高可用、Oracle兼容、一体化、智能运维、多场景应用支持等方面能力进行了大幅提升,单机事务性能达到188tpmC,水平扩展比达到90以上,可用于各行业国产化替代升级和分布式架构转型,帮助企业筑牢数字化发展根基。
三是,在分析型数据领域,星环分布式分析型数据库ArgoDB可以在批处理和OLAP、Ad hoc分析等场景,可替代Oracle/DB2/TD等国外产品,提供海量数据分析能力,提升混合负载、实时数据分析等能力,在客户实际应用场景中,软硬件综合性价比得到10到100倍的提升。
其中,新发布的ArgoDB 6.0拥有业内领先的数据实时处理、多模型数据处理、数据安全等能力,如在实时数据处理场景中,ArgoDB6.0是开源产品如Greeplum、ClickHouse等的2-3倍。同时,在替代TD场景中,可以助力企业用户打造新一代的湖仓集一体平台,实现数据融合统一管理,减少运维成本,加速业务创新。
四是,更多的国产化大数据软件方面,星环科技打造的分布式搜索引擎Scope替换Elasticsearch,也能够助力企业打造自主可控搜索平台;在图数据方面,星环图数据库StellarDB也能够替换Neo4j,为国产化图数据应用提供高水平方案;时序数据库方面,星环科技的TimeLyre也可以替换InfluxDB,实现时序数据库库的国产化替代;数据分析方面,星环科技的智能分析工具Sophon Base也可以在可视化建模分析等场景替代SAS/SPSS,提升功能和性能,降低成本。
客观地说,目前整个中国基础软件行业的“国产化替代”趋势正在加速,星环科技通过持续技术创新,做大做实国产大数据基础软件,相信不仅能够赋能中国企业的数字化转型,也能够更好的推动和引领中国乃至全球大数据基础软件行业的变革与创新。
全文总结,在今年的未来数据技术峰会(FDTC)上,可以看到星环科技发布大模型构建工具和行业大模型应用,战略布局行业大模型的新赛道;此外多款多模态数据库的迭代与创新,也体现了星环科技在大数据领域勇闯“无人区”的态度和坚持;而以行践言推动国产大数据领域的“国产替代”进程,相信也能更好的服务好中国数字经济的高质量发展。可以说,星环科技在大数据领域的前瞻布局、持续创新,其价值都“不止于眼下,更关乎未来”。