来源 :汉王科技2024-11-18
近日,国家档案局2024年度国家档案局优秀科技成果奖完成公示,汉王科技和杭州市档案馆携手合作的《OCR+NLP在档案数据化中的研究与实践》成功获选。此次优秀科技成果评审工作,由国家档案局组织并经过形式审查、专家评审、无记名投票等环节严格筛选,按照公平、公正、公开的原则,最终评审出25项优秀科技成果。
近年来,全国档案部门大力推动档案工作数字化转型,档案数据总量呈现指数级增长,海量档案数据资源不断汇聚,并以档案数据“来源可靠、程序规范、要素合规”的特性成为国家数据资源的重要战略资源。档案数据化是指从已归档数据即档案,基于一定的数据标准,经过资源、开发、业务融合和流通利用转化为数据要素赋能业务生产的过程,使之能够为机器可理解、可操作,并通过人机互动挖掘档案关系、规则与模式,为用户提供档案知识服务。
从档案数字化向档案数据化的深化与升级是当前档案领域的重要且急迫的工作,也是档案工作进一步智能化、协同化、关联化的重要支撑。汉王科技和杭州市档案馆共同承建国家档案局《OCR+NLP在档案数据化中的研究与实践》课题,旨在探索档案在步向“数据化”过程中,需要面对的传统数据资源体系重构、数据资源组织、描述与存储的新型技术规范问题,课题研究包括数据化过程中档案数据的表达、关联、存储、访问标准、档案的OCR数据输出标准,并对相关技术与模型开展了理论研究与软件研发。
课题的主要创新点,在于面向档案“数据化”建设需求,重新定义并构建档案内容语义囊括档案图像页-段落-文字块-文字的多层次细粒度聚合与还原能力,并实现对于档案图像版面布局、公文要素与段落等语义信息丰富的数据资源的揭示,从而支持深入档案内容层面,实现档案数据资源向细粒度的数据资源转化,以便进行检索、分析和挖掘。
同时,面向构建高效便捷的智慧服务场景的需求,对于构建档案知识图谱中的知识数据结构与标准进行框定,从而支持档案知识数据的表达、关联、存储与访问。总结了构建档案知识图谱的思路和流程,形成构建档案知识图谱的方法体系,便于后期不同领域的档案部门开展档案知识图谱建设。
课题组基于杭州市档案馆部分场景开展了成果案例实践,将档案数据转化为可供计算机存储、管理、挖掘与利用的文本信息,形成了杭州市新冠疫情防控知识图谱、政府公文智能解析应用等多个专题知识库,为档案智能、高效、便捷的“数智化”服务提供了一个灵活、便捷的标准化接口。
目前,项目成果已推广至绍兴市档案馆、苏州市档案馆、宁波市档案馆、宁波市鄞州区档案馆、金华市档案馆、诸暨市档案馆、绍兴市柯桥区档案馆、南京城市建设档案馆等数十家档案馆,为以上档案馆的馆藏数据资源结构智联优化提供智能基础设施、并支撑多种特色专题档案资源展示与利用新场景构建。
汉王科技作为中国人工智能先行者,一直以全栈人工智能技术能力应用于多样化的档案业务场景,重塑场景与生产关系,构建档案行业的新质生产力。迄今为止,汉王以其深厚的人工智能技术积淀、丰富的档案行业业务理解,已形成了“全谱系AI能力,全要素数据治理,全领域智慧支撑,全场景技术赋能”的智慧档案解决方案体系。
未来,汉王将对档案数据治理与档案数据化建设持续关注、不断深入,充分利用数智技术,实现档案数据善治,确保档案数据真实完整、质量可靠、安全合规,保障档案数据可知、可控、可取、可联和可用,充分释放档案数据要素价值潜能和信息红利,为国家实现治理能力现代化提供优质高效的坚实数据支撑。