来源 :汉王科技2023-12-07
近日,北京市科学技术委员会、中关村科技园区管理委员会正式发布了《北京市人工智能行业大模型创新应用白皮书(2023年)》,汉王科技古汉语大模型在某国家级图书馆的生成式应用入选为典型案例,推动古籍文字数字化建设加速。
《北京市人工智能行业大模型创新应用白皮书(2023年)》中,既对全球大模型技术和应用的快速发展态势进行了综述,又分析了目前国内国外大模型行业应用情况,并对北京市大模型产业发展情况和行业应用特点进行了概述,重点介绍了北京市行业大模型创新应用18个典型案例。据悉,《白皮书》选取的18个典型案例依托于2023年北京市人工智能大模型创新应用大赛,以政务、金融、医疗、传统产业赋能、文化旅游、智慧城市等六大领域为切入点,调研了全市百余家大模型厂商,详细分析了各领域用户需求、解决方案、项目成果,并围绕创新性、示范性、经济与社会效益性、可推广性等四个维度进行筛选而来。
汉王科技此次入选行业大模型典型应用案例的“古汉语大模型在图书馆的生成式应用”,是以自研天地大模型中的古汉语大模型为基础构建的图书馆、档案馆的古籍文献数字化建设创新工具,大幅提升古文句读、翻译、实体抽取、自动辅助著录和标引等数字化建设工作的效率和智能化水平。
?+
+
古汉语大模型
在某国家级图书馆的生成式应用解读
01
客户需求
一是古籍文献与现代文献相比,在印刷排版、行文风格、用语规范等方面均有很大不同,而且众多古籍文献中没有句读信息,缺乏明确的断句、语法结构等,不仅古籍文献的阅读与理解难度增加,也使得数字化工作难度面临更大的挑战。特别是众多古籍在历史变迁中存在多次的手抄、翻译、批注等,造成了文本的差异,进一步增加了数字化理解的难度。
二是我国古籍文献的数字标引、著录等工作的标准规范严格,古籍标引、著录等领域的新手标注员上手难度大、培训成本较高,往往需要进行多次长时间培训才能够上岗工作。
02
解决方案
汉王科技深耕数字人文与档案领域多年,基于其积累的海量古籍语料和标注数据,精心训练了古汉语大模型。在此基础上,面对国家级图书馆目前古籍文献数字化工作遇到的两大痛点,汉王科技围绕其构建了辅助理解古籍文献和辅助著录与标引两个大模型解决方案:
一是基于汉王古汉语大模型的古文理解能力,汉王科技为国家图书馆开展辅助理解数字化解决方案,提供了句读、文言文到白话文翻译和人、地、机构、职官、时间等实体抽取等三个辅助理解工具,帮助国家图书馆及相关人员更快理解古籍语义内容。
二是依托古汉语大模型的抽取和生成能力,定制了辅助著录与标引数字化解决方案,开发档案自动著录、自动题名和自动分件等数字化应用服务,辅助著录与标引,减轻加工人员的上手难度,提升效率。
03
项目成果
基于古汉语大模型的辅助理解古籍文献解决方案方案解决了古籍文献理解方面的多个痛点问题,取得了非常优秀的模型评测结果。
以句读应用为例,其召回率、精度和F1分数水平,已超过培训后的标注员平均水平,在实际古籍文献理解标注应用时降本增效效果明显。在古籍文献翻译业务应用效果上,辅助理解古籍文献大模型方案同样表现出色,在人工和机器评测双项测试中,比ChatGPT领先最高可达55%。同样在实体抽取应用上,辅助理解古籍文献大模型在三项关键指标上也优于ChatGPT,最高达28%。
基于古汉语大模型的辅助著录与标引数字化解决方案大幅提升档案著录标引效率,针对不同的数据类型,效率提升26%~60%。
北京市科学技术委员会、中关村科技园区管理委员会对汉王科技古汉语大模型在图书馆、档案馆行业的创新应用成果的认可和支持,充分表明行业大模型在数智化场景创新中发挥的关键作用,同时也印证了汉王科技天地大模型数据私有化、算力低成本化、深度专业化、知识实时化和生成精准化“五化”能力在行业大模型落地应用时的有效性和高可用性。
汉王科技将以古汉语大模型成功应用案例为基础,继续深入图书馆、档案馆行业数字化建设领域探索实践天地大模型的更多创新应用,加速推广大模型在数字人文领域的应用创新和产品服务,持续加速数字人文的数智化转型,为源远流长的中华文明传承构筑坚实的数字基础。
汉王科技已经基于天地大模型打造出古汉语、法律、教育、办公、医养等行业大模型,在各个行业场景中落地应用并取得了行业标杆客户的认可,未来还将持续构建金融、文旅、电信、能源等行业大模型落地到更多行业头部客户中应用,加速推动大模型在行业场景化、应用化和普惠化发展。