来源 :千龙网·中国首都网2022-08-29
8月22日-24日,由中国人工智能学会主办的视觉与学习青年学者研讨会(VALSE 2022)在天津国家会展中心举办。金山办公受邀参会,与国内顶尖学者共话计算机视觉与机器学习前沿技术成果。
如何将不可编辑的表格重新变成便于复制粘贴和编辑的电子文档,已成为近些年学术界和工业界共同的研究热门和技术难题。在「可解释的深度学习算法与视觉应用」分论坛上,金山办公技术总监、CV团队负责人熊龙飞发表《复杂场景下的表格还原》演讲,展示了公司近年来在该领域取得的突破性进展。
熊龙飞指出,标准PDF里的表格,或者扫描规整、清晰的表格相对容易识别,很多转化引擎都支持该类表格的转化还原。但对于更加复杂场景下的表格,比如,严重变形、有复杂排版、朝向随机、像素模糊、有印章或其他背景图案干扰、存在嵌套关系、甚至没有表格线的表格文件,目前市面上大多数产品的识别转化效果都差强人意。
近年来,金山办公在以CV技术为支撑的OCR识别、表格识别领域已达到业界领先水平。对复杂场景下的表格还原技术难题,金山办公研发了一套识别系统,通过多种自研算法,在密集文本、不规则表格或无框表格、带印章、签名等干扰的文档元素上取得了不错的识别和转换效果。
除了满足基本的文档内容识别,金山办公通过加入深度学习能力,对文字属性做了一系列算法优化,能够更精准地还原文档风格,对诸如颜色、字体、加粗、斜体和下划线等格式都能进行精细识别,显著提高文档还原度,为用户节省大量后期手动调整的时间和精力。
据介绍,该系统由近二十个深度学习模型、一百多个算法模块、50多万行代码构成,拥有复杂的功能模块和调度流程,支持各类图片输入,无论是扫描件、网上下载的图片,亦或是手机截图、随手拍的照片等均可进行转化识别。云端和本地两端均可部署,支持输出xlsx表格、word文档、html等多种格式的文件。
演讲现场,熊龙飞通过一系列样张展示了该系统的识别能力,对于质量模糊、带印章的表格图片、甚至是被揉成一团后展开的实体表格,通过系统识别后都达到了极高的还原度。
“该系统可以在日常办公、财务表格转化、政府工作等领域节约大量人工编辑所产生的时间成本,极大地提高办公效率。”熊龙飞表示。
金山办公在过去34年坚持深耕办公赛道,秉持技术立业,不断打磨技术和产品服务。公司承担多项国家级重大科研项目研发任务,包括“核高基”科技重大专项、电子发展基金、“863”高技术研究发展计划等,并先后两次荣获国家科技进步奖二等奖。
公司在近年持续加大AI领域的研发投入,并把OCR、版面的识别和理解列为重点任务。早在2018年,公司就成立了CV团队,聚焦WPS等产品上图像及视觉项目的研发与应用,通过CV能力赋能各类办公场景,目前已在OCR文字识别、文档矫正、智能抠图、字体识别、表格还原、版式还原、PDF编辑等二十多个功能上线相关产品和服务。
目前,金山办公为来自全球220多个国家和地区的用户提供办公服务。截至2022年6月,公司主要产品月度活跃设备数为5.7亿,其中WPS office PC版月度活跃设备数2.32亿,移动版月度活跃设备数3.34亿。
VALSE 2022由中国图像图形学学会、中国人工智能学会主办,天津大学承办,天津工业大学、天津科技大学和天津市人工智能学会等单位协办,旨在为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台。截至目前,VALSE已成功举办十一届,是中国内最大规模的机器视觉学术盛会。