1.星环科技:云计算+大数据+数据库+人工智能全面布局
1.1.十年深耕大数据领域,助力企业数字化转型
星环科技是一家企业级大数据基础软件开发商,自2013年公司成立直至2022年公司上市,星环科技致力于围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务,已形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵,支撑客户及合作伙伴开发数据应用系统和业务应用系统,助力客户实现数字化转型。
大数据基础软件业务
基础软件产品:共分为三类,分别为大数据与云基础平台软件(TDH和TDC)、分布式关系型数据库(ArgoDB和KunDB)、数据开发与智能分析工具(TDS和Sophon)。公司基础软件产品主要以软件产品授权的方式交付,也可以软硬一体产品形式交付,并根据项目需求配套提供相关的技术服务。
技术服务:由于大数据基础软件专业性较强且对于整个信息系统的重要性较高,需要提供技术服务支持。
应用与解决方案
主要针对大数据应用场景,提供大数据存储、处理以及分析等相关场景下的咨询及定制开发等服务的解决方案;主要分为数据应用解决方案和业务应用解决方案。
自2013年公司成立以来,星环科技以大数据基础平台软件为切入点,并逐步发布相关新的软件产品来完善公司的大数据产品矩阵,不断丰富的产品系列为客户提供数据全生命周期的高效管理工具。
基础软件业务贡献营收的半壁江山,但营收占比持续下降。2019-2022年公司的收入一半以上来自于大数据基础软件业务,但收入占比呈现小幅下降的趋势,其中主要是大数据与云基础平台软件业务规模增速放缓导致(2022年出现收入下降),然而分布式关系型数据库软件业务却维持着高增速的表现,这与公司在分布式数据库技术端的持续积累和产品端的不断升级息息相关。此外2022年技术服务的收入占比有明显增加。
公司核心的软件授权业务毛利率维持高水平,技术服务毛利率不断提高。技术服务占比上升的同时毛利率也持续升高,具体来看2022年公司技术服务业务的毛利率为49.01%,相比上年同期的36.65%有显著提升,主要得益于技术支持与服务人员项目实施的工作饱和度和各项目之间协调调度能力提升的同时,公司将技术服务按照不同的产品模块和数据生命周期管理角度进行细化分类,形成一系列技术运营服务标准与工作规范,以提升相关人员的专业性及工作效率。
公司董事长孙元浩为实控人,合计控制22.48%表决权。截至2023年6月30日,公司董事长孙元浩直接持有公司9.24%的股份,并通过与发行人股东范磊、吕程、佘晖及赞星投资中心签署的《一致行动协议》控制公司13.24%的股份所代表的表决权。因此,孙元浩本人及通过《一致行动协议》控制公司22.48%的股份所代表的表决权,为公司第一大股东。
1.2.股权激励众志成城,考核指标彰显信心
为了吸引和留住优秀人才和核心骨干,充分调动和发挥工作积极性、创造性,有效提升团队凝聚力和企业核心竞争力,将股东利益、公司利益和个人利益结合在一起,使各方共同为公司经营目标的实现和战略发展贡献力量,实现长远发展,2023年3月13日星环科技公告2023 年限制性股票激励计划(草案),拟向激励对象授予不超过125万股限制性股票,其中首次授予限制性股票114.6191万股,授予价格为45.06 元/股。
此次股票激励健全了公司的长效激励约束机制,激励对象总人数为200人,约占公司截至2022年12 月31 日员工总数1088 人的18%,激励对象覆盖面广,不仅有利于稳定核心技术和管理团队,还有望激励员工为公司经营目标的实现和战略发展贡献力量,实现长远发展。
此次股权激励制定的业绩考核目标值为以2021年营收为基准,2023-2026年公司营收增长率不低于60%、125%、200%、260%,分别对应5.29、7.44、9.93、11.91亿元,较高的业绩考核目标彰显了公司对未来业务发展的信心。
1.3.定增募资补充“军备竞赛”火力
2023 年6 月7 日,公司披露《2023年度向特定对象发行A股股票预案》,拟募集不超过15.2 亿元,用于数据分析、量化投研平台等项目建设。大数据和人工智能正处于历史发展机遇期,政策鼓励进一步加大投入,公司有望凭借定增资金助力,不断巩固核心技术壁垒,发展前景广阔。
如果定增顺利落地,公司有望把握大数据和人工智能技术的未来趋势,巩固公司核心技术壁垒。公司希望通过定增项目实现升级现有产品功能、开展新产品的研发,以增强公司的产品竞争力,同时培育挖掘新的营业收入增长点增强公司的盈利能力,并保障公司经营活动的稳定性,为公司经营活动提供基础算力支持。面向新一轮数字化、智能化发展浪潮,公司作为国内领先的国产数据基础工具型软件厂商,下游需求处于旺盛期,此次定增投建项目精准把握当前下游核心诉求,为公司长期可持续发展打下坚实基础。
2.向量数据库作为“AI底座”行业空间广阔
2.1.大模型将向量数据库从小众推向火爆
向量数据库,就是用于存储、索引和搜索向量数据的仓库。在传统的关系型数据库中,数据往往被存储为表格形式。随着 AI 时代的到来,众多企业面临着海量的非结构化数据,例如图像、音频和文本等。这些数据无法简单地用表格形式存储,因此需要通过机器学习算法从中提取出“特征”,向量数据库的兴起便是为了解决对这些向量进行存储与计算的问题。
向量数据库早在2018年便开始应用,应用场景局限于推荐系统和以图搜图,比较小众,主要面向AI企业用户,曾被质疑天花板不高:
应用场景局限:大模型出现前,向量数据库的使用场景常限于推荐系统、视觉检索等,被投资者质疑市场天花板不高,空间有限。
客户需求弱:用户可以基于诸如Faiss、pgvector等开源的向量检索插件自己研发满足需求。
向量数据库的优势:对比传统数据库
可存储非结构化数据
向量数据库专门为非结构数据检索而设计,通过向量嵌入函数(vector embeding )来精准描写文本、语音、图像、视频等非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。而像SQL、Mysql这样传统的数据库根本无法完成这些操作。
近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS)
不同于传统数据库一一对应的精确检索,向量数据库能够对向量数据进行更为快速的相似性搜索,商业化潜力巨大,可应用于搜索广告推荐、图像音视频检索、文本挖掘、语言识别处理等广泛领域。
具备高性能的快速检索与分析能力
向量化执行引擎可以减少节点间的调度,提高CPU的利用率。
大模型带火了向量数据库。ChatGPT的横空出世,带动了新一波生成式AI的投资浪潮,也带火了向量数据库。2023年3月,英伟达CEO黄仁勋首次提及向量数据库,强调了向量数据库对于构建专有大模型的重要性,催生了4月份的一波投资浪潮。
2.2.向量数据库赋予大模型长期记忆力
向量数据库被誉为“AI海马体”,因为它可以赋予大模型长期记忆力。如果把大语言模型比作大脑,那它天然就缺失了形成记忆能力的海马体。之所以被称为AI的海马体,是因为通过外接向量数据库将对话上下文或者额外知识进行向量化存储和检索,能够让chatGPT这类大语言模型记忆与理解人机交互过程中的交流内容。大语言模型所面临的种种缺陷与业界难题,在“AI海马体”向量数据库的加持下都
能够迎刃而解:
时间局限性:实时性难题和缺乏私域数据
目前的大模型都是预训练模型,对于训练截止日之后发生的事情一无所知。第一是没有实时的数据,第二是缺乏私域数据或者企业数据,向量数据库可以支持学习互联网等最新信息,还可以输入公司信息产品手册等私域信息,以供模型进行推理。
空间局限性:输入限制导致上下文信息丢失
受到算力和工程化程度的限制,一旦输入文本超过了最大的Token数,大模型就开始忘记上下文。在这种限制下,例如无法将一家上市公司的全部年报数据输入进大模型,导致不能进行全面的分析。向量数据库可以记录客户端和大模型之间的对话聊天信息,为大模型提供理论上没有上限的长期记忆。
应用痛点:“幻觉”和低准确率问题
大模型存在诸如生成不准确或不相关的信息,缺乏事实一致性或常识,重复或自相矛盾,有偏见或冒犯性等问题。目前“幻觉”问题从训练推理环节的技术层面上来说没有有效解决方案,只能通过finetune以及重新训练的方向进行优化,但是通过外接向量数据库可以补充知识库进行校正,让其能够给出更准确的结果,一定程度上解决“幻觉”问题。
多模态数据处理难题
大模型不仅限于处理文本数据,还可以处理图像、语音等多模态数据。向量数据库作为一种能够存储和处理多种数据类型的系统,能够有效地支持多模态数据的存储、索引和查询。
向量数据库商业价值广阔,具体分为三个方面:
降低训练和推理成本:
相较于笨重且高成本的预训练和推理,大模型可以更高效地存储和读取知识库,反过来起到降低训练和推理成本的作用。根据腾讯云数据显示,相比传统方式,将向量数据库用于大模型预训练数据的分类、去重和清洗,可以实现10倍效率的提升;而如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2-4个数量级。
激发更多应用场景:
赋予使用者定制化AIGC的能力,这一点是预训练和推理无法触及的,通过向量数据库,用户可以向AIGC以交流的形式训练“AI助手”,对于企业用户可以用企业专属AI进行员工培训、数据运维甚至企业财务管理和战略制定等复杂任务。
解决了业界担心的大模型隐私泄露的问题:
外接的数据库可以不用进入网络甚至不用上传到云端,大模型是在安全机制下访问向量数据库中的数据。
2.3.“传统向量数据库”难以取代专业向量数据库
专业向量数据库并非传统数据库厂商所能取代的。由于向量数据库的核心技术核心向量索引技术成熟,进入壁垒低,因此市场认为向量数据库核心技术缺少壁垒,传统数据库实现向量搜索功能简单,将替代向量数据库满足大部分市场需求,专业向量数据库将被“传统向量数据库”取代。然而经过深度的产业研究我们发现,只有高性能的专业向量数据库才能满足不断发展的AI应用场景,其与生俱来的不可替代性是写在“基因”里的,而AI的需求将大幅提升其市场空间。
市场认为:专业向量数据库市场需求弱
观点一:核心技术壁垒低,传统数据库厂商将抢夺市场;
向量检索技术成熟且开源,进入壁垒低。传统数据库大都可以直接安装开源索引插件(Faiss)实现向量搜索,如ElasticSearch、MongoDB等已添加向量检索功能,AWS RDS PostgreSQL和阿里云PostgreSQL 14/15也发布支持了pgvector插件。而对于当前缺乏向量搜索功能的数据库,随着技术的发展,增加向量搜索功能只是时间问题。
传统数据库封装向量检索功能即可满足大部分客户对于向量数据存储与检索的需求,市场对专业向量数据库没有需求。同时可以解决专业向量数据库在实际应用场景中与其他专业数据库的一致性问题。
观点二:下游需求差异大,向量数据库抢占客户不及传统数据库;
向量数据库客户需求差异大,产品推广难度大,而传统数据库将凭借客户资源积累抢占市场。部分客户业务对向量检索服务的要求是低时延高并发,例如广告推荐业务的客户,要求单次ANN查询要在50ms内完成,这对整个系统的优化提出较高要求。而另外一部分客户对成本比较敏感,向量数据库的使用频率不高且接受离线系统手工调用。因此几乎不可能出现一款向量数据库满足如此大差异的不同查询类型的需求。
观点三:向量数据库并非大模型刚需,市场空间有限;
专业向量数据库的高性能优势暂无用武之地:向量检索的延迟时长为chatGPT的0.5%,高性能的收益极低。传统数据库增添向量检索功能即可满足大模型领域的需求。
语义分析领域不如传统搜索厂商:向量数据库擅长稠密向量检索,而文本的语义分析通常转化为计算存储成本更低的稀疏向量,而稀疏向量检索并非专业向量数据库所擅长。
我们认为:专业向量数据库市场需求巨大且刚性。
观点一:传统数据库不构成威胁。专业向量数据库性能-成本优势明显,随着应用场景的复杂化传统数据库将无法满足需求;
首先,向量数据库在易用性方面表现得更为优秀。向量数据库往往提供了更易于迭代和拓展的 Python、JavaScript 和Restful API 接口,从而可以更方便地增加新的功能和语法。这使得向量数据库能够适应 AI 和大数据领域日新月异的变化,更符合AI应用开发者的需求。
其次,向量数据库在处理高维向量数据时通常能够提供更高的性能。这种性能优势不只是源于对向量索引的优化,更多地在于向量数据库对算力资源的有效利用和对数据分布的深入理解。优秀的向量数据库会基于 CPU、SIMD、GPU 等算力进行优化,根据Milvus的测试结果显示,GPU 索引的性能可能优于 CPU 的十倍以上。相比之下,传统数据库虽然增加了对向量数据的支持,但其能力往往受限于已有的系统架构,因此很难充分利用算力资源。同时,传统数据库也无法像专门针对向量数据设计的数据库那样,更有效地处理向量数据的分片、增量插入和删除等问题。除此之外,传统数据库进入向量数据领域或多或少地存在更新困难、性能慢、标量向量查询无法打通、索引任务和查询相互影响问题。
AI时代下随着海量非结构化数据的生成、跨模态分析应用的不断发展,只有专业的向量数据库才能满足客户日益提升的高性能需求。数据库具有高度分化的特点,回顾现有的各类型数据库龙头品牌,可以看到即便所有的数据库都可以存KV(键值),但是MySQL不能替代Tair和Redis;即使所有数据库都能够存Jason,MongoDB仍然没有被替代,说明不同的数据类型和场景类型需要对应的专业数据库,而随着AI的发展,对专业向量数据库的需求只会越来越大。
观点二:下游定制化证明需求刚性;
客户差异大且细分场景多,侧面反映出对专业向量数据库的刚需,此外我们认为产品差异化需求将被市场消纳为两类主要需求。向量数据库绝大多数情况下服务于AI应用场景,这些场景里传统数据库的存量功能实际应用价值低,采购向量数据库性价比高。只有专业向量数据库才能更好的提供定制化服务,定制化需求体现下游刚需,客户粘性强。
观点三:大模型领域对专业向量数据库有着明显刚需。专业向量数据库在图像、音视频数据应用上的优势不可逾越,已成为大模型的刚需;
高性能收益低只是暂时:随着非结构化数据应用的发展,大模型对音视频、图像的向量检索需求飞速增长,而专业向量数据库巨大的性能优势将成为大模型的刚需。
传统搜索厂商性能落后:向量数据与全文数据在存储、计算上有很大差别,传统搜索数据库比如ElasticSearch很难同时高效支持这两种场景,性能远落后于专业的向量数据库,并且不能支持多种向量索引,所支持的HNSW在大数据量资源开销极大。
密集向量比稀疏向量更好地压缩了文本的语义:针对文本搜索场景,全文搜索更适合做关键字匹配,而向量搜索能找出字面上不同但语义上相近的内容。使用向量加全文的联合召回,能够做到的精度比单独使用向量或者全文更高,星环科技向量数据库Hippo1.1版本里的hybrid search就有这样的功能,在内部项目应用下来效果非常好。
随着LLM 逐渐进入生产环境,AI对基础设施的要求越来越高,向量数据库是人工智能基础设施的一个重要补充。向量数据库与传统数据库并不会互相取代,而是会在不同的场景下发挥各自的优势。向量数据库的出现,也会促进传统数据库对向量数据类型的支持。未来随着新的应用场景的出现,向量数据库需要适应不同的应用场景,提供更加灵活和多样化的解决方案,从而满足不同用户的需求,应用场景的不断丰富与AI需求的增长将带动向量数据库的市场空间不断上升。
2.4.向量数据库市场空间潜力巨大
应用端AIGC不断筑高向量数据库市场空间天花板。AI技术的发展将推动向量数据应用与存储需求加速增长:一方面随着AI应用场景不断丰富,向量数据库的下游客户数量随着AI发展而飞速增长;另一方面AIGC正推动着非结构化数据应用飞速增长,AIGC带来了跨模态数据分析的需求浪潮,比如结合图像、文本、音频等不同类型的数据进行分析和预测,只有向量数据库才能实时快速地处理这些海量的向量数据。
数据端AIGC推动非结构化数据指数级增长,将不断加强客户对专业向量数据库的刚需属性。第一,AIGC将生成海量的非结构化数据,如数字人、AI绘画、AI剪辑、AI办公、AI作曲等应用场景;第二,大模型互相训练或者自我训练产生大量数据,诸如AutoGPT 等大模型会把自己创造的知识保存下来,不断迭代演化,导致非结构化数据以指数级增长,如此大体量数据的存储只能求助于向量数据库。
向量数据库市场目前尚未完全商业化落地。市场上主流的两种商业模式为KA定制和云数据库模式(按照存储和计算资源收费)。以Pinecone为例,存储量每个月每GB定价在0.025美元,而计算使用量则是每小时0.1-1美元不等,根据算力等级有所差异。根据IDC的预测,到2025年,全球非结构化数据的量将达到167ZB。
向量数据库市场空间测算:
我们选用了以向量数据库在数据库行业的市场空间渗透率为出发点的方法一,全球数据预测包括结构化和非结构化数据的预测数据来自于IDC,2022年全球数据库与国内数据库市场规模数据来自于中国信通院《数据库发展研究报告(2023年)》。
核心假设:
关键假设:假设到2025年存储单价下调30%(比较基准为2022年存储单价),到2030年存储单价下调80%;
方法一新增假设:
全球与国内数据库市场规模与结构化数据规模强正相关。由于当前行业内大部分数据库均是针对结构化数据的存储与索引而设计,尽管向量数据库对非结构化数据的存储与索引看上去是一条增量赛道,但随着企业对非结构化数据的存储利用愈发重视,企业对结构化数据库的需求增速可能会下降,同时非结构化数据虽然增速迅猛但是价值含量低于结构化数据,因此谨慎假设整体数据库市场规模增速与结构化数据规模增速相同。
假设市场规模与存储单价强正相关(单价变低,市场规模变低);
假设向量数据库在整体数据库行业的渗透率在2023-2026年由3%突破至10%,到2030年突破至20%
方法二新增假设:
非结构化数据在向量数据库存储的比例对应2023-2026年由0.01%增长到0.06%
测算结果:
方法一:预计到2030年,全球向量数据库的市场空间达到383亿美元,而国内向量数据库的市场空间达到186亿元;
方法二:预计到2030年,全球向量数据库的市场空间达到436亿美元,而国内向量数据库的市场空间达到211亿元。
最终基于审慎性原则,我们选用以向量数据库在数据库行业的市场空间渗透率为出发点的方法一作为公司向量数据库业务收入的估值依据。预计2023-2025年国内向量数据库的市场空间分别为16、34、55亿元。
3.星环科技:前瞻性布局竞争优势明显,静候行业发展红利
星环科技属于国内第一批进入该领域的厂商,先发优势明显。公司早在2018年便为公司内部AI团队研发向量数据库使用,凭借十年深耕于大数据市场所积累的行业经验,公司富有前瞻性地预见到向量数据库未来在AI时代下的应用潜力,不断地积累向量数据库的相关技术与专利,最终产品技术迭代五年后于2023年5月份正式发布Hippo,星环的分布式向量数据库Hippo作为一款企业级云原生分布式向量数据库,基于分布式特性,可以对文档、图片、音视频等多源、海量数据转化后的多维向量进行统一存储和管理。通过多进程架构与GPU加速技术,充分发挥并行检索能力,实现毫秒级高性能数据检索,结合相似度检索等技术,帮助用户快速挖掘数据价值。
3.1.做好向量数据库要具备“数据库基因+AI基因”
向量数据库涉及多个领域的知识,相关技术与知识需要长期积累。涉及领域包括交叉的 AI 知识和数据库等知识,只是简单封装开源检索库(或者开源插件)所实现的向量搜索功能在安全性、稳定性和可用性等方面存在缺陷。在大模型时代下,高性能是向量数据库脱颖而出的关键要素,对于想要做出一个高效的向量数据库的厂商来说,至少需要具备“数据库基因”+“AI基因”。
数据库基因:需要有传统的数据库技术能力,由于要管理海量级的数据,向量数据库必须是构建在大数据和分布式数据库技术基础上,必须满足share-nothing架构、高可用性和高扩展性,因此需要厂商具备传统的数据库技术能力(包括如何做分布式,如何扩缩容,如何做数据安全、备份以及维持高可用性等能力)。
AI基因:只有真正懂AI的厂商才能全方面服务好下游客户,一是要懂AI的使用场景、使用方式,二是要懂得AI的生态运作体系,从大模型开发到应用环节;AI基因对于向量数据库厂商来说至关重要。
星环科技具备多年的数据库技术和AI技术积累,以及向量数据库技术方面的实践,在产品可用性和稳定性等方面表现优秀。从产品层面来看,被业界看好的开源软件并未占据优势,数据库作为新兴中间件已经初步呈现高度定制化需求,易用性和定制化服务两大要素削弱了开源插件的实际应用能力。从公司层面来看,数据库国产化替代趋势下,高度自主研发的数据库厂商具有不可逾越的政策性优势,国外厂商难以进入国内市场,且国外厂商的产品中文检索准确度低,相比星环科技处于明显劣势。
3.2.专业向量数据库厂商前赴后继竞争激烈
大模型厂商不构成竞争,以专业厂商为主。大模型的训练和推理本身只涉及embedding模型,不需要向量数据库,因此大模型厂商不形成直接竞争。
专业向量数据库厂商数量众多。目前全球已有的向量数据库产品主要包括Pinecone、Milvus、Weaviate、Vespa、TencentCloud、VectorDB等。其中,超过一半的向量数据库具有云化部署的能力。
星环分布式向量数据库Hippo具备高可用、高性能、易拓展等特点。星环科技投入了大量时间在向量数据库产品的安全性、易用性、运维管理能力上,向量数据库Hippo满足“云原生+分布式部署+企业级安全+高性能检索+多样化接口”等优秀指标,位于业内领先水平。Hippo不仅支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,很好地满足了企业针对海量向量数据的高实时性检索等场景;此外,Hippo采用全面容器化部署,支持服务的弹性扩缩容,同时具备多租户和强大的资源管控能力。
星环下半年推出的Hippo社区版,具备免费获取、快速部署和简单易用等特性,进一步降低了用户使用向量数据库的门槛和成本,用户可以低成本、快速地基于已有向量数据库进行大模型领域的探索,实现业务的创新。
3.3.星环科技兼具“技术+资源+商业模式”三大竞争优势
星环科技兼具“技术+资源+商业模式”三大竞争优势。公司是国内最早进入向量数据库领域的公司之一,拥有丰富的行业经验和客户资源,并且是A股唯一一家投入到向量数据库领域的上市公司。
一、技术优势
技术先发:星环科技的向量数据库因内部AI团队需求而诞生,于2018年开始自研自用,产品技术迭代五年后于2023年5月份正式发布Hippo,属于国内第一批进入该领域的厂商,具备先发优势;
技术储备:星环科技在向量数据库领域拥有多项核心技术和专利,其产品性能和功能在国内处于领先水平,和全球热门向量数据库产品Pinecone相比,星环的检索性能更为优越,在中文检索准确度上更高。
二、资源优势
客户积累:截止2023年半年报共计1400 +用户使用星环平台,其中公司深耕金融领域长达8年,服务了大量金融行业客户,客户资源深厚,在AI业务线上目前金融客户一直与公司持续着深度交流,积极探讨大模型的具体场景;
资本背书:腾讯云与星环科技自2017年成为战略合作伙伴,更是公司的有力背书。
三、商业模式优势
战略布局大模型开发一站式工具链,深度绑定大模型客户。Sophon LLMOps服务于大模型开发者,帮助企业快捷地构建自己的行业大模型,深度绑定大模型客户。支持领城大模型的构建、落地应用和持续选代;拥有从提示工程到机器学习、模型训练的一站式工具链;支持模型编排调度、上线、运维管理及持续开发目前大模型开发工具链在金融领域已有客户进行了采购。
大模型和向量数据库进行技术反哺,共同提升产品优势。相较于通用大模型,金融大模型更加擅长处理金融量化领域各类问题,包括政策和研报分析、新闻解读、事件总结和演绎推理等方面,具备强大的理解和生成能力。该模型能够全面复盘、传播和推演股票、债券、基金、商品等多种市场事件,并生成另类的策略因子集合,构建立体的归因解释体系。
根据公司在投资者互动平台上的回答内容表示,星环金融大模型目前交流的客户较多,包括监管机构、银行、券商、基金等客户都在关注大模型的潜在应用,与公司一同积极探讨大模型的具体场景。向量数据库通过与大模型和的结合互相反哺,不断提升各自产品以及整体方案上的优势。
星环金融大模型“无涯”功能丰富。目前可以实现:(1)新闻实时分析,包括摘要、分类、潜在影响分析;(2)年报、财报、公告等方面的问答;(3)产业相关问答,支持联网搜索功能。大模型和量化投研工具结合,对板块个股生成情绪因子回测效果较好,未来可提供给投资端开发量化策略。
将向量数据库、图数据库与大语言模型结合,为微调提供数据,可以更低成本、更高效地构建特定领域的大模型应用。此外,还可以构建业务域知识图谱和业务系统的应用服务,进一步提高人机交互的效率,提供更灵活的组合业务服务,激发出更多更深入的业务场景AI应用。
合规声明:本文节选自已经入库的正式研究报告,如需PDF原文请后台留言。