媒体行业企事业单位在数据要素领域得天独厚,日积月累的新闻报道、媒资素材、读者反馈和市场研究,沉淀出属于它们的“数据金矿”。
但是,多数相关单位尚未重视和发挥数据要素价值,导致资源闲置。闲置的数据要素既无法赋能内部业务团队,也无法通过对外输出来实现社会和商业价值。这种对数据只存不用的行为,导致媒体行业的“金矿”逐渐变成为“包袱”。
科技日报社作为媒体行业激发数据要素价值的先行者,已构建完善的数据基座和能力输出体系,在提升业务团队工作效率、对外输出实现创收等方面取得显著成绩,具有标杆意义。
01
数据底座+内外服务,科技日报社描绘数据要素价值实现蓝图
科技日报社(以下简称报社)是中央编委批准设立、由科学技术部代管的副部级事业单位,是承担党和国家科技宣传任务的中央主流媒体。报社作为科技信息传播的重要机构,拥有丰富的数据资源,充分释放数据资源价值,不仅能够提升报社的业务能力和市场竞争力,还能够更好地履行媒体的社会责任,带来更广泛的影响。基于此,报社通过梳理现有系统和数据资源,总结出构建数据底座、对内服务、对外输出三大需求。
需求一以知识体系为骨架,构建数据底座
报社在科技资讯领域积累大量数据,既有自己生产的,也有积累的外部资料。这些资料交织混杂,检索不便。报社需要以当前的数据资源为基础,以知识体系为框架,来构建数据底座,旨在为后续高效利用数据资源打下坚实基础。
对于数据资源使用者而言,即需要过往数据的支持,也需要了解科技资讯领域的最新进展。报社需要按照新建的知识体系纳入外部资源,不断扩充和更新,保障数据底座的持续可用性。
需求二以灵活取用为目的,实现对内服务
构建数据底座不是目的,用起来才是目的。数据底座的作用在于收集、管理数据资源,因此报社需要开发用户端,让大家可以灵活取用。编辑和记者们写文章或者报告时,往往需要查询资料,通过用户端可以从分门别类的高质量数据资源中高效检索出所需材料,提升产出效率和质量。为进一步提升灵活性,除Web端外,报社需要构建APP端。
需求三以满足客户偏好为原则,实现对外输出
报社数据资源不局限于自用,也可以面向科技口的政府部门和企事业单位输出,实现创收。不同于对内服务,对外输出有其独特性。首先是服务方式,对内服务的Web和APP两端本质是一种SaaS服务,对外输出时,部分客户会接受,其他客户可能更青睐API的服务方式。另外,客户可能不满足于常规内容服务,会存在定制化需要。例如某单位对“大模型”比较感兴趣,希望精准定制大模型专题内容以及数据分析结果。因此,报社需要为这些高潜力需求进行准备。
02
拓尔思三大亮点促成与报社的深度合作
面对上述需求,科技日报社决定外采方式来实现。报社调研多家厂商后,研判选定拓尔思为合作伙伴,主要看重拓尔思的三个亮点。
亮点一兼具媒体行业和大数据技术双重能力
拓尔思成立于1993年,已服务10000余家企业级用户。媒体是拓尔思的深耕行业之一,在该行业,拓尔思服务过多家类似于科技日报社的客户,积累大量行业Know-how和最佳实践。同时,拓尔思在大数据领域有深厚积累,已推出海蜘分布式数据采集系统、海聚数据整合系统、TRS海贝搜索数据库等多款产品,在广泛落地应用。科技日报社看重厂商在媒体行业和大数据方面的积累,更青睐复合背景的合作伙伴,因此未选择纯粹的媒体数字化服务商和大数据公司。
亮点二积累千亿级高价值精准资讯数据
报社的数据底座必须坚实深厚,方能支撑起应用的大厦。仅依赖报社自己的数据积累,略显单薄。拓尔思服务媒体行业多年,积累千亿级高价值精准资讯数据,可以结合报社知识体系特点,让其数据底座迅速充盈。
并且,拓尔思拥有全球部署的分布式采集平台及核心采集能力,可以为数据底座快速构建连接资讯世界的管道,保证数据底座的持久生命力。
亮点三支持报社现场调研过往最佳实践
拓尔思积累大量最佳实践案例,其中不乏与科技日报社类似背景的单位。拓尔思长期服务这些客户并保持良好关系,他们大多支持拓尔思与科技日报社现场交流、调研。报社非常重视实地调研,认为通过此方式可以切实感受项目价值,并能从中汲取宝贵的实践经验。
03
报社确认“三步走”的解决方案,让需求逐一落地
经过多方调研,报社和拓尔思制定“三步走”的解决方案。步骤一,打造大数据支撑服务平台,实现数据的梳理、加工和整合工作。步骤二,构建服务平台,实现内外服务。步骤三,打造精准专题生成服务平台和智能数据平台,深化对外服务。
步骤一打造大数据支撑服务平台,实现数据的梳理、加工和整合工作
拓尔思基于报社实际情况打造专属知识体系,涵盖科委体系、科协体系、中科院体系、IT、农业科技等多种类型和维度。打造完知识体系后,拓尔思对数据进行清洗、整合入库。然后将外部高质量数据的标准化统一接入,进一步丰富基础数据资源。
上述构想将由大数据支撑服务平台来承载,该平台包括科技资讯采集接入子系统、科技数据智能处理子系统、大数据管理子系统和科技知识加工子系统四个组成部分。
科技资讯采集接入子系统:针对多源异构数据的接入,将推送数据进行多源、多时态、多尺度的整合,最终形成资讯内容大数据资源池,作为基础的数据服务支撑。
科技数据智能处理子系统:通过大数据智能处理技术手段对基础素材库进行语义分析、标签自动标引、信息分类、聚类等大数据智能处理。
大数据管理子系统:提供数据的存储管理、检索服务与数据管理,支撑后续上层平台的移动端业务应用。
科技知识加工子系统:从科技新闻、科技人员、科技机构、科技成果等多方位考虑,进行科技领域知识的信息收集及关键数据抽取,构建科技资讯所需的基础信息知识库。
步骤二构建服务平台,实现内外服务
第一步的成果是让各方看见数据,第二步是让各方用起来数据。拓尔思在大数据支撑服务平台之上构建中国科技资讯库Web端和移动端。同时,拓尔思为报社构建中国科技资讯库后台管理系统,包括Web端和移动端数据的统一管理、用户会员管理、应用端运营管理、用户画像等。
通过以上建设,报社既可以对内提供服务,也可以为政府部门、企事业单位和各类社会组织的决策、运作提供科技资讯移动服务,以及为社会公众提供科技资讯和科学普及知识服务。
步骤三打造精准专题生成服务平台和智能数据平台,深化对外服务
客户可能不满足于常规内容服务,存在定制化需要。拓尔思为报社搭建精准专题生成服务平台,用于满足该需求。平台依托拓尔思专题追踪、热点发现、线索聚合、传播指数计算、可视化轨迹溯源等人工智能和大数据分析技术,构建精准资讯专题,分别支撑不同的业务场景,包括电子报专题、原创稿件专题、宣传发行矩阵、领导动态专题、科技政策专题、重大科技直播专题、视频媒资专题、科技热点专题、事件分析、线索舆情专题、突发事件专题、新媒体榜单、数据服务统计、用户画像专题、央媒对比专题等。
部分科技口的企事业单位会接受Web和APP端,而更多的单位青睐API的服务方式。因此,拓尔思为报社打造智能数据中台,相关工作包括建立API的统一管理体系及标准规范,以及对API进行显性化、可视化处理。
04
报社数据服务覆盖31个省科技厅局、高新区及有关科研院所等单位机构,创收超预期
发展至今,科技日报社的数据底座共接入近8000个信源,包括网信办白名单、重点科技信源、科技日报社及国外重点基础信源等。其资讯总量已达到2.3亿条,为报社新闻资讯留存、新闻生产支撑和数据资讯服务等方面提供了有力支撑。
科报大数据科技资讯服务平台服务应用目前已覆盖了生物、医药等行业领域,并且能够针对特定高端用户实现精准数据推送。目前,移动终端覆盖了全国31个省科技厅局、高新区及有关科研院所等单位机构。在对外服务方面,报社实现超预期创收。
未来,报社计划引入大模型技术,为数据要素插上AI的翅膀,实现更大价值。