海天瑞声（688787.SH）：大模型强化学习环节的整体数据需求在逐渐攀升，逐渐向更多垂类拓展

http://www.chaguwang.cn 2024-06-12 海天瑞声内幕信息

来源 :有连云2024-06-12

　　海天瑞声（688787.SH）2024年6月11日发布消息称，2024年6月6日海天瑞声接受华夏基金等机构调研，证券事务代表：张哲参与接待，并回答了调研机构提出的问题。

　　调研机构详情如下：

　　贾静雯/华夏基金；白海波/乐正资本；张宸/银河证券；王霆/国华兴盛资产；杨子平/川流资本；范明/国泰君安证券资产管理；许斐/霁峰资本；钱小英/上海锴量。

　　调研主要内容：

　　1、请问公司2023年收入下滑的原因是什么？

　　2023年，公司营业收入为1.70亿元，较去年同期下降35.33%，主要系受境外部分客户进行阶段性裁员、业务方向及研发节奏周期性调整等影响，部分客户2023年预算释放进度放缓，同时叠加2023年上半年数据出境相关法规落地实施的阶段性影响，公司境外收入同比大幅下滑。境内业务方面，虽然宏观稳经济政策已初见成效，但国内仍面临复杂严峻的内外部环境考验，部分境内客户对集中性研发投入仍持谨慎态度，基础数据服务领域客户预算及需求释放出现阶段性减缓，叠加行业内竞争加剧，综合导致境内收入同比下滑。

　　2、公司2024年第一季度收入同比增长的原因是什么？

　　公司2024年第一季度收入增长主要系在大模型技术的逐步发展和应用领域不断拓展的带动下，全球各类型科技公司对人工智能领域的研发投入呈现出复苏并增长的趋势，带动以多语言智能语音、文本为代表的数据需求快速增加，整体拉动公司第一季度营业收入同比大幅提升。

　　3、公司政企类项目目前有哪些进展？

　　目前，公司正在与北京、安徽、山东、河北等地进行对接。若相关合作达到信息披露要求，公司将及时履行信息披露义务。

　　4、大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别？

　　大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求，两者在形态上基本一致，都是文本、语音和图像，但在数据规模、质量、来源等方面，预训练数据较传统训练数据会存在一定差异。例如，规模上，预训练数据的token量普遍在万亿量级，而传统模型数量则大约在10亿量级。从数据来源的角度看，由于大模型所需数据规模远超传统模型，因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说，大模型数据来源除了来自传统的定向采集外，还将涉及版权数据、公共数据等新型海量高质量数据来源。

　　此外，数据处理的核心技术也存在一定差异。例如，由于大模型预训练阶段的原料数据规模更大，因此大模型预训练数据更加注重数据清洗的工程化能力，在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等，对海量数据完成高质量清洗，这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。

　　5、目前已经有很多大模型陆续发布，未来数据需求是会持续增长还是下降？原因是什么？

　　随着更多大模型产品面向公众推出上线、以及不断进行版本迭代，未来的大模型相关数据需求会持续、显著增长，这符合当AI进行应用侧后，对数据的需求才会规模性增长的规律。预期该类增长将主要体现在预训练阶段对高质量、大规模的版权数据、公共数据、多模态数据、垂直领域的实际场景数据等方面的需求，以及不断提升其交互精准度的强化学习阶段各类数据需求等。例如，若某大模型应用领域为文学创作，就会需要来自版权方的散文、小说、诗词等数据进行创作能力训练；若某大模型拟提升其在民生政务领域的客服能力，则来自民生政务服务平台的此类对话数据将产生重要价值。未来，随着大模型向更高级、更多维、更广泛垂向拓展，大模型数据需求将呈现快速增长趋势。

　　6、强化学习阶段的数据服务，今年有何进展或者变化？

　　目前来看，随着各大模型的陆续上线，强化学习环节的整体数据需求在逐渐攀升，并在具体标注任务上呈现如下趋势：

　　（1）逐渐向更多垂类拓展（例如，法律、金融、医疗）；（2）强化学习标注的评价/评分指标变得更为丰富，会要求标注人员从更多维度对模型的问答进行评判和打分；（3）由单模态向多模态转变：23年主要的标注需求集中在文本类标注，今年开始逐步向多模态拓展（例如，文本-视频、文本-图像等）。