来源 :金融界2024-02-28
据国家知识产权局公告,科大讯飞股份有限公司申请一项名为“一种英文文本数据清洗方法、装置、存储介质及设备“,公开号CN117609214A,申请日期为2023年12月。
专利摘要显示,本申请公开了一种英文文本数据清洗方法、装置、存储介质及设备,该方法包括:首先获取待清洗的目标英文文本数据;并对其进行脱敏处理,得到脱敏后的目标英文文本数据,然后通过串并联的N个不同路径,对脱敏后的目标英文文本数据分别进行不同维度的错误信息挖掘及纠错处理,得到N个不同路径各自对应的纠错后的目标英文文本数据;接着利用预训练语言模型对目标英文文本数据和N个不同路径各自对应的纠错后的目标英文文本数据进行评分,并根据评分结果对目标英文文本数据进行清洗,得到清洗结果。从而能够在利用串并联的N个不同路径实现对于错误信息的深度挖掘和顺序多样化的多路径纠错后,准确清洗出高质量英文文本数据,提高了数据清洗效果。