2023年5月10日,熙菱信息(股票代码:300588)联席总裁何岳,副总裁、首席技术官张登博士,受邀出席由国金证券研究所举办的“迎客松——产业高峰论坛暨国金证券中期策略会”。会上,张登博士向行业专家及业界同行分享了《人工智能技术在数据生命周期中的应用和实践》:
(张登博士演讲现场)
从技术趋势来看,数据价值的挖掘与创新需要AI赋能正成为新风向,特别是AI可为数据治理带来全新的生产方式、生产效率,以及数据产品形态和流通模式;
从赋能数据生命周期的环节来看,AI作用于数据本身,关键是在数据质量、数据安全和数据业务价值提升中发挥着重要作用;
从场景应用来看,AI+数据方案在实际场景的应用价值正在凸显,熙菱信息已通过AI+数据方案,助力多个项目场景生产效率、业务效率、服务效能的提升。
技术趋势:
数据也需要AI
“以往我们习惯于强调数据对于AI的重要推动作用,比如AI模型的成功取决于可信和及时的数据;AI需要智能数据管理以快速发现模型的所有特征;没有元数据驱动的沿袭和可跟踪性,AI驱动的应用程序和洞察就无法部署到生产中,但数据与AI相互依存,特别是随着大语言模型时代的到来,新的技术趋势之一是数据也需要AI。”张登博士指出。
以数据治理为例,数据治理贯穿了数据全生命周期,是实现数据服务与应用的重要环节,从国家层面而言,数据治理国际规则主动权将会影响国际竞争力,从产业和企业层面来说,数据治理的行业规则主动权、数据资产持有和经营权将会影响到企业和产业竞争格局。
目前,传统的依托数据中台工具进行人工数据治理的方法已经不再奏效。原因有二:一是资产数量增长过快,特别是有大量的机器生成内容;二是数据复杂性、指数型增长挑战,无法通过以增加工程师和开发人员的数量为线性衡量的方法来解决问题。
“我们注意到不少国际数据公司已经将注意力聚焦到AI上,重视其在数据治理中发挥的关键作用,比如通过推出大型语言模型,来打造合适的数据和AI资产治理解决方案。”张登博士表示,AI技术在数据生命周期中可全面提升效率与质量,特别是为数据治理带来的是全新的生产方式、生产效率,以及数据产品形态和流通模式。
赋能数据:
AI全面提升数据质量、安全和业务价值
AI具备感知、认知、预知和辅助决策四种能力,应用于数据本身,AI能自动执行并简化涉及数据发现、集成、清理、治理和控制的数据管理相关任务;可学习并接管单调、重复的任务;改进数据理解,并识别数据隐私和质量异常等。张登博士认为,AI关键是在数据质量、数据安全和业务价值提升方面发挥着重要作用:
01
提高数据的质量、准确性和可靠性。
难点描述:数据本身作为生产要素的关键点是数据的质量、数据的准确性和可靠性。但数据质量管理存在诸多难点,比如不同的数据质量问题具有不同的性质和特征,需采用不同的方法和技术来解决;数据质量管理耗费大量的成本和资源,需进行成本效益分析确保数据质量管理的收益大于成本;数据量增长和变化可能导致数据质量问题的不断出现和变化;智能化程度低等。
熙菱策略:熙菱融合数据治理知识图谱、AI能力,并结合数据内容、字段,采用表推荐方法,辅助业务人员快速理解梳理表数据的业务含义,并进一步规范数据标准,还通过AI技术,自动识别数据中的异常值、缺失值和重复值等问题,采取数据处理方法推荐,填充缺失值、删除异常值和去重等,从而提高数据的质量、准确性和完整性。
02
保障数据安全方面大有可为。
难点描述:数据安全是数据交易和流通的红线。以数据的安全使用为目标,建立纵深数据安全体系,防坏人、放好人是关键。但如何在满足数据的能力和功能要求的同时,建立自动化持续评估,以及事前授权、事中控制、事后监督的体制机制和技术支撑保障,是利用AI技术释放数据要素价值需要解决好的问题。
熙菱策略:熙菱基于相关政策、标准规范,融合知识图谱、NLP、图像识别、语音识别、用户画像等技术,有效识别敏感数据,分析隐私数据资产的关系,实现数据资产分级分类。同时,基于身份数据、事件数据、行为数据和设备环境数据,通过身份识别、时间识别、行为识别等技术,实现数据安全的用户画像,最后构建信任评估模型,并根据数据安全等级和信任等级,实现数据动态访问权限控制。
03
AI提升数据业务价值。
难点描述:实现业务价值创造的关键是基于“数据+模型”重建对业务的理解、预测、控制新模式。但如何有效评估数据质量;如何面向不同业务系统建立全局统一的业务数据标准规范;如何集成各种各样的业务数据来挖掘有效的信息;如何借助可视化、人机交互乃至统计等AI技术对模型进行解释;如何不仅要保护数据,也要保护数据上建立的模型,避免通过模型逻辑反推个体隐私……这些问题都需要一一解决。
熙菱策略:熙菱利用AI提升数据业务价值的方式多种多样,以智能标签、知识图谱、机器学习为例。智能化标签将非结构化信息转化为结构化信息,以扩展人员各类信息的维度分析,并完成高准确率内容识别,还可运用语义分析技术提高“数据资源业务化描述能力”;采用知识图谱技术,通过实体匹配、综合匹配等方式,基于多类数据,对各实体数据进行关联关系、中间关系、隐藏关系等分析挖掘,形成静态关系、动态关系信息;机器学习模型是借助有监督学习和无监督学习相关技术手段,根据业务提取相关特征、选择适合的机器学习算法,最终通过对样本数据、特征数据进行持续迭代优化,对目标人员、行为进行预测。
场景应用:
提高3倍、实现50%以上抓捕,
AI+数据方案实用价值凸显
目前,熙菱通过AI+数据方案,在服务多个项目中,实现了基于AI的数据自动化、智能化数据处理和管理,大幅提升了场景数据的质量和价值:
在某省级项目中,面对三大运营商的标准格式、非标准格式、图片格式等3000余种话单样式数据,熙菱信息易数平台利用NLP技术实现数据的自动对标和自动标准化,支持60余种隐私数据的识别和超过20类的数据分级分类安全策略,完成近2800种数据的自动化识别和处理,识别准确率超过90%,生产效率提高了3倍;
在某个数字化改革项目中,对于110报警数据,实现了数据和标签提取、图谱自动化构建,使得业务效率大幅提升;
在国家禁毒大数据中心AI情报大数据分析服务中,基于数据的自动化接入、标准化、特征计算和知识图谱的自动构建,实现了7个超过85%准确率的核心业务模型,帮助用户实现了50%以上的抓捕。
“在数据要素化、产业数字化的道路上还存在着诸多挑战,但我们相信自己选择的是一条难而正确的道路。面向未来,熙菱将继续在数据生命周期管理自动化的路上,通过不断探索和创新,实现数据的自动接入、自动处理、自动调整、自动服务、自动保护。”张登博士期待在产业高速发展的当下,能与业界更多伙伴通力合作,加速推进数字中国建设,助力千行百业数字化转型。
熙菱信息(股票代码:300588)是一家专注于大数据智能应用服务的上市企业,以国家战略需求为导向,建立以乌鲁木齐和上海为双总部、北京为行业发展中心、西安为研发中心的战略布局;基于四大核心技术,熙菱信息打造“易联-易数-易图-易搭-得心”一体化数字智能开放平台,面向数字警务、数字政务、数字安全、数字产业等多领域提供系列产品和解决方案。截止到目前,熙菱拥有30余个业务场景,全国累计输出了6900余套解决方案,在多个国家级创新试点示范项目和北京冬奥会、上海进博会等多个国家级科技保障任务中都留下了熙菱足迹,业务覆盖全国30多个省市区和东南亚等海外地区。