Hi 朋友,上期分享了擎创科技的实践案例,下面让我们来看一看本期内容之“平安银行——关于运维数据治理在银行的实践”。
背景和介绍
2021年,我国通过了“十四五”规划和2035年远景目标纲要的决议,提出了“加快数字化发展,建设数字中国”的纲要。紧接着中国人民银行编制了《金融科技发展规划2022-2025》,规划的内容也能看出对于金融服务的数字化生态体系的决心,其中特别指出布局高效算力体系,夯实“数字底座”,建立金融标准化,发挥数字技术对金融业的赋能作用,在金融业生产经营活动中的积极作用,并且指出金融业在未来3年中需要提升智能运维的能力,提升运维数据的治理能力。
平安银行作为中国领先的金融机构,意识到运维数据治理对其业务的重要性。这不单单可以提升运维的效率,帮助运维在海量数据中进行决策,更是云原生转型路上的一个基础设施。银行业务本就错综复杂,在以往的SOA架构上已经是上千个应用,云原生架构将会带来更多、更复杂的应用数量和场景,而真正能有效帮助决策,在故障中找出线索、定位问题的,也只有数据了,它对于平安银行来说是一个挑战,也是一个契机。
平安银行的运维数据现状及困境
运维数据的现状
从广义上说,平安银行从2019年就已经开始了运维数据治理的工程。首先解决的是生产配置数据,我们通常称为CMDB。对于配置数据的管理,我行根据当下人力资源情况,在保证业务能力发展的前提下,建立了数据治理虚拟团队,制定了完善的配置数据标准,并设立了数据质量中心来帮助数据时刻保证新鲜度。平台系统也先后进行了多次的大版本迭代。目前配置数据已经融汇在了日常运维的工作中。
运维数据也绝非只有配置数据,在运维日常工作的事务中,有很多的操作数据未必是配置项,或者说我们无法用配置项的方式来管理它,比如监控告警数据、容量使用的数据等,这些是随着生产运行而产生的某个时刻的流水数据,它的生命周期很短,无法用来描述当下的系统状态,只能陈述过去某个时间点的状态,随着云原生架构的转型和建设,我们将这些数据称为运行态数据,这些数据无法提供给当下的运维操作,但随着人工智能、大数据、机器学习等技术的应用,这些数据的价值就越来越大,不仅可以帮助我们提前发现一些问题,还可以帮助我们基于数据进行一些重大决策,帮助业务人员在开展业务时有更多选择的可能性。
运维数据在使用中的困难和挑战
运行态数据与配置数据不同,其数据源和数据类型更加丰富,无法继续使用配置系统来承接这些数据,甚至管理的方式方法都需要进行调整,数据架构以及指标更是大相径庭。最终,经过项目小组讨论,决定建立更高纬度的运维数据中台,在前期调研、规划的时候,我们遇到了以下几类困难:
数据属组变化:配置数据的属组是属于专业领域,比如网络、存储、系统等,专家可以清晰的定义出来某条数据应该长什么样,而运行态的数据的属组很难界定,产生什么数据可能是由业务活动决定的。这就导致数据归属不清晰,治理边界也不清晰。
数据标准更加丰富,但数据完整性和准确性的评估也更加困难:数据重复、不一致等简单错误容易发现,但运行态数据的某些字段的内容正确性很难判断,在运行态中的数据值是不确定的,因此后期分析数据时容易产生数据歧义。
数据架构需要调整并对其业务系统:运维数据除了提供运维能力的执行和预测,也能为业务产生价值,比如容量使用率,可以帮助业务降低成本,又比如全链监控数据,能改善用户的体验。但当下我行的数据架构,并没有包含运维数据这一块。
数据采集的复杂度增加:配置数据的采集单一来源为专业系统平台,但是现在种类丰富了很多,比如传感器的采集、日志的采集、监控数据的提取等,这些方式采集的频率、精度和可靠性都有所不同。
数据存储和管理:配置管理系统的数据存储容量和管理方式都无法承载运行态的数据,需要建立一个基于大数据的数据处理架构,确保数据存储的可扩展性、安全性和可靠性,并建立运行态数据管理规范。
数据安全和可视化:数据可视化形式对我们来说也是空缺,也是一个挑战。数据更丰富了,需求也会随之增加,对谁能看什么数据的要求更加精细化了,数据的访问控制和权限管理机制会给我们带来更大的挑战。
平安银行的运维数据治理实践
定目标
运维数据治理的目标是优化运维管理过程,提升决策能力,降低风险,改善客户体验,并最大程度地发挥数据的价值。但运维数据不同于业务数据,业务数据能通过业务活动梳理出关键指标,定义指标的价值,从而开展数据治理。凭借过往的配置数据治理经验,我们深知,完全遵从DAAM的一套机制,要落地的时效和执行难度上困难重重。因此,我们选择结合行业内优秀的实践经验,从运维场景出发,以帮助各技术领域实现数字化运营为目的,以运维场景为抓手,“以用促治”,逐一治理数据链上的数据,持续完善数据标准。
分阶段
我行在运维数据治理的规划上主要分为三个阶段和四个主要能力域,但这些能力域并非我行所有的能力域。我们认为,图中的能力是符合我行未来三年云原生转型中重要的能力元素,也是能迅速看到价值的场景。
1)数字化运维阶段:主要通过大量数据可视化的能力,帮助各能力域能清晰地看到当前的现状,以运营报表的方式提供能力域的日常运营评估、治理工作的开展。这个阶段的重点在于建立重点数据链上的数据生命周期,快速看到问题,针对看到的数据问题,建立数据标准和指标,构建基础的数据管理能力,比如数据采集,数据存储,数据加工等。
2)智能化运营阶段:在这个阶段,数据的能力和价值得到了提升,已经不再全部是线下周期性的治理工作了,数据需要对日常的运营工作做出推荐,虽然最后的决策还是需要专家进行确认,但已经大大缩小了专家需要处理的数据量,仅凭借着给出的指标现象进行最后的决策。本阶段对数据质量提出了更高的要求,所以在这个阶段应该会存在一段较长的时间来反复的验证和治理工作。除此之外,这个阶段还能帮助补充日常管理规范的缺失。
3)智慧化运营阶段:在这个阶段的能力域已经相对是比较成熟了,有些能力域的数据链相对集中干净,或早期建设规划得较好,那这个领域就可以更快地进入到这个阶段,享受数据带来的便捷能力了。这个阶段主要以自动化决策为主,决策的场景也是逐步地由智能化转向智慧化,比如简单的故障自愈、异常变更拦截等场景都可以在较短的时间内落地。
定义IT架构全景标准化模型
明确了可以落地的小目标后,还需要建立一个闭环机制,刚开始可能还不能称之为机制,因为不完善,可能存在缺陷,但很重要,是一个可以让一个具体场景落地的方法。作为一个敏捷团队,我们可以接受不完美但持续优化的机制。在这个机制的每个点上,都明确定义了角色、行为、目标、产出物。从下图中我们可以看到,整个机制运行过程中,也是在不断地补充建立规范,人员角色也都是涵盖在了数据治理的虚拟团队下。
建系统
要让机制能更好的落地,提高效率,减少沟通成本,一定会需要系统的配合,更何况数据的诸多标准定义,都是需要系统来支撑的。因此,我行自主研发了运维数据中台,一站式解决数据定义、数据采集、数据清洗、数据存储、数据计算、数据服务、质量控制以及资产评估。
一体化建模可以保证数据在转义过程中不会丢失
我行设计的一体化建模能力,主要是针对源系统的数据模型在自动转换到逻辑层模型(即带有业务含义定义的模型)的映射关系的建立,通过一次定义、多次映射,实现在多个层次模型中的关系或血缘不会因为认知的错误而产生偏差。又能再不影响源系统情况下做到分级管理。
质量门禁设置的越前越好,质量治理不应该由中台来落地
质量门禁的用处是将质量差的数据拦截在外面,以保证在仓内的数据计算出来的结果是符合预期的,也方便排查追溯,但如果数据质量太差,导致进到仓内的数据缺失,这对数据资产来说就是价值过低的,所以我们在质量门禁中进行了多个维度的数据评估。
完整性:对于源系统提取的数据每个字段是否都有符合模型的值。
一致性:需要定期和源系统进行数据对账,才能将确保一致性。
准确性:同时包含了数据的技术定义,即字段类型,枚举值是否符合模型定义,还有对于数据的值域准确性,对于值域准确性,我们通过常识+规则+人工审核的方式来判定数据的内容准确性,通过对源系统上报的数据的指标评估,持续敦促对应领域系统完成数据治理。
建立数据资产目录,对数据的价值评估和管理应该围绕资产展开
数据资产是数据使用的最小单元,我们会针对资产进行定义、评估、权限、订阅等一系列的管理动作,资产可以在使用场景中挖掘出来,颗粒度不要求,可以是一个场景就是一个资产,也可以是多个资产组合成一个场景,前期进行拆分复用的价值小于投入的成本。可以通过更多的沉淀,来提炼更有复用价值的资产。
看指标
运维数据资产是我们评估数据价值的最小单元,我们为数据资产建立了四个维度的指标:敢用,能用,会用,好用。
敢用(Daring to Use):这个指标关注的是在运维数据治理过程中是否有勇气使用新的数据源、数据类型和数据管理方式。能力域包括接受和适应运行态数据的变化,确定数据的归属和治理边界,以及建立数据采集、存储和管理的能力。
能用(Able to Use):这个指标关注的是在运维数据治理过程中是否具备使用运行态数据的能力。能力域包括建立数据标准,评估数据的完整性和准确性,调整数据架构以适应业务系统,以及提高数据采集的复杂度。
会用(Know How to Use):这个指标关注的是在运维数据治理过程中是否具备运用运行态数据进行决策和预测的能力。能力域包括建立数据可视化和数据分析能力,提供运营报表和评估能力域的日常运营,实现智能化运营,以及补充日常管理规范的缺失。
好用(User-Friendly):这个指标关注的是在运维数据治理过程中是否建立了易于使用的数据管理系统和工具。能力域包括建立数据管理规范,确保数据存储的可扩展性、安全性和可靠性,以及解决数据可视化、访问控制和权限管理的挑战。
从数据采集到数据的应用,整个过程中都应该围绕这四个指标进行持续优化。
总结与展望
平安银行的运维数据治理实践旨在通过优化运维管理过程、提升决策能力并最大程度发挥数据的价值。我行将治理分为三个阶段:数字化运维、智能化运营和智慧化运营。在数字化运维阶段,通过数据可视化能力帮助各能力域清晰了解现状,建立数据生命周期并快速发现问题,同时构建基础的数据管理能力。智能化运营阶段提升了数据的能力和价值,为日常运营工作提供推荐,减少专家处理数据的工作量。智慧化运营阶段则以自动化决策为主,逐步实现故障自愈和异常变更拦截等能力。通过建立闭环机制和自主研发运维数据中台,我们努力提高效率、减少沟通成本,并保证数据的质量和资产的管理。质量门禁用于拦截质量差的数据,确保仓内数据计算结果的准确性和可追溯性。此外,建立数据资产目录有助于评估和管理数据的价值。通过四个指标(敢用、能用、会用、好用)来评估数据的使用价值,持续优化数据处理过程,确保数据的完整、准确和可靠,提升运营决策效能。这些实践为平安银行在数据治理方面奠定了坚实的基础。我行的运维数据中台已经在于上半年投入生产使用,目前已经完成10个生产运营相关场景的分析和资产的产生,论证了我行的数据治理方案的可行性。
后续平安银行将继续推进运维数据治理的实践,并面临以下新的发展方向和挑战:
资产在使用中的安全防护将会面临精细化管理的挑战,比如敏感数据的访问等级。
资产的质量永远都不可能达到100%的准确,因为它是运行态的数据,是有未知且不确定因素存在的,我们能做的就是,做好自己的预期,做好预案。另一方面,持续优化治理流程,让治理工作更轻松,更快捷。
资产的挖掘是一个需要持续投入的工作,前期助力领域数字化运营可以快速拿到价值,但后期需要对数据有挖掘的能力更加吃紧,会投入一定的资源,对相关领域的人员做好技能储备。
“实践案例分享-平安银行”编委介绍