NLP巨头入局！拓尔思“拓天大模型”率先用于媒体、金融、政务行业

http://www.chaguwang.cn 2023-06-29 拓尔思内幕信息

来源 :财联社2023-06-29

　　“大模型的核心是语言大模型。语言大模型虽然统一了NLP（自然语言处理）的研究范式，但它并没有统一的解决方案，以往人工智能难以落地、难以复制的情况仍然存在。并不是有一个厉害的大模型就能解决一切问题。”在谈及大模型当下存在的局限性时，拓尔思（300229.SZ）总裁施水才如是说道。

　　今日，拓尔思正式发布“拓天大模型”，并率先面向媒体、金融、政务领域推出了行业大模型。财联社记者现场获悉，今年下半年，拓尔思还将陆续推出网络舆情、公安、知识产权、法律、审计等行业大模型。

　　（施水才正在介绍拓天大模型财联社记者摄）

　　之所以选择切入上述行业，施水才向记者表示，一方面因为这些行业的数据特点非常契合拓尔思的模型，也就是文本文档型数据占比高，与自然语言处理高度相关。另一方面拓尔思在这些行业具备一定的优势和话语权，客户基础好、渗透率高。

　　根据拓尔思2022年年报，来自金融、制造、能源等企业客户收入占总营收比重38.25%，公共安全客户收入占28.33%，政府行业客户占21.67%，互联网和传媒占11.74%。

　　最近一段时间，国内大模型扎堆涌现，让不少投资者感叹“每天都有企业发布大模型”。而随着行业技术和市场认知的快速迭代，业界关注点也从通用大模型向垂直大模型转变。

　　但目前，通用大模型在专业领域落地存在巨大的挑战，包括质量、时效、可控、成本等。同时每一个领域都有专业或私域的知识体系，拥有极为庞杂的知识量，仅靠通用大模型无法满足垂直领域的需求。

　　施水才表示，在具体行业应用落地时，拓尔思最大的优势在于跟业务系统高度吻合，同时有强大的工程和服务能力，“能用”且“好用”。

　　拓尔思副总裁林松涛现场演示了拓天媒体行业大模型，该模型主要功能——内容生产智能助手，页面左侧为编辑器、右侧为对话框。借助对话框搜索到的资料同步显示来源，并且能一键拖拽到编辑器里进行修改、续写，以及自动配图。

　　（拓天媒体行业大模型现场演示财联社记者摄）

　　据悉，这一媒体行业大模型基于拓尔思自有的超1000亿互联网媒体资讯数据、超100亿官媒数据，超200万人民数据，14大类知识标引规范，12000多知识标引规则作为专业训练数据打造而来。

　　“一个大模型好不好，数据非常重要，数据要求类型广、质量高，我们本身有1500亿的大规模的数据，它的特点就是信息源是非常地权威可靠。”施水才提到，他曾把自家数据列表拿给国内五六个头部大模型公司看，结果有四家来要案例，三家问怎么买，这也侧面印证了公司的数据资产质量可靠。

　　而在大模型基座上，拓尔思采取开放策略，既有自研模型，也能够在开源模型上进行增强，还可以跟国内外同行进行商业合作。施水才表示，这是出于减少风险的考虑。

　　此外，拓尔思相关负责人还现场演示了政务公文写作、研究报告撰写、智能客服等大模型功能。记者注意到，这些功能普遍满足的是某一特定行业的场景化需求。比如政务咨询客服，当被问到异地办理购房贷款问题时，拓天大模型不仅能完成多轮对话，给出肯定的回答，还会以图表形式列出办理业务所需的证件材料，以及相关事务中心的交通信息和办公时间。

　　施水才透露，接下来还会增加新的场景、拓展新的行业。大模型只是阶段性成果，公司未来真正的核心赛道，一个是数据要素市场，另一个是将商业模式从落地项目制向提供云服务转型。