习近平总书记在中国科协大会上曾指出“我们充分发挥科技创新的引领带动作用,努力在原始创新上取得新突破,在重要科技领域实现跨越发展,推动关键核心技术自主可控”,充分强调了原始创新的重要地位和作用。伴随客户交易模式的多元转变、互联网金融科技的成功实践、银行场景化商业模式的创新运作、金融机构加速数字化升级的发展趋势等内外部环境变化,中国银行业金融机构面向国家金融安全自主可控战略和企业未来长远发展大计,紧紧围绕自主创新、安全可控的建设理念,相继启动了新一轮核心业务相关系统的建设与改造工程。
传统数据中心面临的挑战和机遇
银行业新一代分布式架构下的业务系统,通常具有实时交易量大、热数据体量大、事务强一致性、业务逻辑复杂等特点。面对越来越复杂的系统、逐渐庞大的设备和应用数量,日趋严格的监管合规要求,如何全面、自主、有效、优雅从容地进行统一运维管理是新时代数据中心面临的最大挑战。
1.管理对象数量多领域广
分布式核心业务系统从业务功能、处理能力、服务层次等多维度切分,单元化部署后带给运行的最直观挑战就是管理对象多。服务器数量、中间件种类、服务(实例)数量、集群和服务的类别、(应用)软件版本、队列主题、网络链接类型、日志文件数量、缓存的层次、数据库数量、监控指标等都有几倍、十倍甚至百倍的增长。考虑灾备要求,业务系统将在多中心部署,管理对象又将成倍增加。这是分布式架构业务系统呈现给运行工作的第一重挑战。
2.关联关系层次深梳理难
银行核心级业务系统内部层次结构复杂,外部互联系统众多,对其操作呈现出牵一发而动全身。分布式核心业务系统在此方面将更加凸显。纵向看,从上到下的服务治理、服务路由、数据缓存、引擎调度、事务协调、队列分合、池化管理、数据库的管理等体现了调用栈的深度。横向看,基础服务的串接、标准数据的流动、全局事项的统筹、本地事项的管控、批量的分发调度等,还有面向服务的网关,与外围联动的接口,体现出核心系统对外关联广度。在此基础上错综复杂的关联关系管理,及与之相匹配的监控贴身服务,是分布式架构业务系统呈现给运行工作的第二重挑战。
3.工具执行场景多需求杂
核心级业务系统长期运行,不可避免地会遇到种种操作场景。计划内的,如业务参数和技术参数调整、版本升级、切换演练、系统回切、灰度发布、服务调整、副本核对、网络检查、配置变更、系统扩缩容等;计划外的,如硬件设备故障、交易成功率突然骤降、服务状态异常、服务队列堵塞、数据库性能下降、服务集群状态变差、跨中心服务抖动等。针对于分布式条件成百上千、多则万计的操作对象,为有条不紊地应对各种情况,做全场景下的工具准备,提供高效便捷的执行能力是分布式架构业务系统呈现给运行工作的第三重挑战。
互联网时代运维视角的洞察和思考
近年来,搭建一个基于运维视角,融合新时代内外部技术趋势,自主创新,以快速恢复生产为第一要务并总揽全局的平台,已逐渐成为业界创新共识。
1.融合内外部技术趋势
一是互联网的分布式敏捷架构与大型银行金融级交易强一致性需求的融合。新一代运维平台应该充分利用大数据、人工智能等先进技术和理念,为大型银行的分布式核心系统稳定运行,提供全方位监测管控能力。二是开发与运维的融合。新一代运维平台秉承业内DevOps、SRE及敏捷思想,将发布策略编排与自动化相结合,实现智能分级发布,提供高质高效的部署和交付能力。三是流程与执行的融合。新一代运维平台将数据采集、事件生成和策略触发相结合,构建洞察与处置一体化能力。
2.坚持自主创新建设
一是实施路径的创新。传统运维实施路径一般是系统先上线,配套运维工具后建设。然而不谋全局者,不足以谋一域。运维能力的建设先于业务系统投产,可以为将来的系统全面上线及稳定运行打牢基础。习总书记曾说“基础不牢,地动山摇”,工欲善其事必先利其器,我们必须夯实新一代运维平台这个支撑基石。二是自主掌控的创新。传统金融行业运维工具主要依靠各大工具厂商,运维团队更多是执行的角色。在分布式运维平台建设过程中,银行应在坚持行内自主掌控的前提下充分开放,与厂商互为借鉴、合作共赢,搭建一套融汇贯通的运维体系。三是国产化及开源技术的创新。平台需基于国产化、云底座设计,支持主流及国产化系统架构和基础软件,使用敏捷可靠的容器云平台与灵活高效的数据处理平台,全面支持分布式运维平台的稳定运行。
3.秉承一体化平台设计
一是见微知著、多维洞察的可视化平台。新一代运维平台于细微处可展示每一笔交易调用的路径、耗时等,于全局处可在多中心实时掌控各类型资源运行情况。另外,运维平台应根据监控告警、联机交易等场景设计监控视图穿行,便于运维管理员从指标、日志、链路全方位洞察业务。二是防微杜渐、禁于未然的管控平台。新一代运维平台强调主动运维,通过访问控制、流量控制、故障隔离、容灾切换等手段,采用多层次场景化封装,实现应用、数据库基于系统、中心、单元等维度的管理,实现从服务级到数据中心级的故障处置能力,而且集中化的管控及发布操作进一步减少了人为风险。三是收离聚散、剖玄析微的数据平台,新一代运维平台需搭建一个集中各类运维数据的数据湖,以数据为基础,以场景为导向,以算法为支撑,实现智能运维(AIOPS)的落地。
邮储银行新一代运维平台的
落地和实践
在时代背景下,邮储银行的新一代分布式运维平台是融合内外部技术趋势、自主创新打造而成的数智一体化运维平台,是业界领先的创新实践。
1.国产云化敏捷架构
邮储银行新一代运维平台基于国产化、云底座的技术架构打造,支持主流程序开发工具,兼容国内外主流基础软件,形成从编程语言、编译器到操作系统、数据库、中间件的完整生态链,满足了运维平台的完全自主可控要求。在此之上,分布式运维平台基于开放式互联网敏捷架构、高可运维性架构与分布式微服务架构,实现横向分片、纵向分层、分布式与集群化,在避免高额前期投入的同时拥有近线性的扩展能力。在天然友好支持灰度发布、服务治理、快速切换、DevOps等能力的同时,在性能、可用性、伸缩性、扩展性、安全性方面达到行业领先水平(如图1所示)。
图1、国产化全栈开放生态
2.全链路的运维监控
运维平台聚焦生产运维全流程痛点、难点,从传统的单点定位转向全场景多维度突破。建立以服务树为基础的观测体系,横向覆盖日志、链路等20余个运维子系统,纵向覆盖应用、数据库、批处理及业务上下游系统,并创新地引入全局业务跟踪号,实现核心业务全链路追踪,高效定位业务亚健康根因(如图2所示)。在监控告警和联机交易场景下,经视图穿行实现指标链路日志的快速关联跳转;在分级发布场景下,通过灰度发布和多维度检查实现统一质量准入;在容量管理场景下,对黄金指标进行建模及异常监测,预防容量退化。
图2、与单元化、分布式数据库结合的
全链路追踪分析
3.全方面的管控体系
运维平台围绕邮储核心业务需求,依托原子服务编排能力,多层次场景化封装批量管控、服务治理、容灾切换、数据库管控等入口,实现应用、数据库基于中心、系统、服务、单元等维度的管理实现一站式服务治理、配置中心管理和一致性管理(如图3所示)。在服务治理场景下,平台识别业务异常时可迅速联动故障处理预案,给出自动化或标准化解决方案;在容灾切换场景下,管控平台可实现一键式多维度组合切换;在数据库运维场景下,建设一体化DBPaaS平台,打通上层业务应用和下层数据库底座,提供一体化和智能化的数据库管控能力。
图3、数智一体的DBPAAS平台
展望
国家进入科技发展第一方阵要靠创新,必须加快科技自立自强步伐。要不断提升原始创新能力,勇于攻克“卡脖子”的关键核心技术。中国银行业采用分布式技术建设新一代核心业务系统,使产品创新更迅速,营销目标更精准,客户体验更优良,业务运营更高效,风险管理更全面,提升了核心业务系统无限潜能,也推动了运维平台换代升级。随着新技术、新设备、新算法的不断采用,运维平台将在可见、可管、可计的方向上持续跃升,逐步落地数据库服务DBPaaS、应用服务APaaS、智能服务AIPaaS、知识服务KGPaaS四大平台数千项功能,不断聚焦并覆盖现有及新增的运维聚合场景,以DBPaaS先行,未来深耕APaaS、AIPaaS、KGPaaS迎接分布式技术和数据驱动运维提出的挑战,并不断融入更多的智能化技术,最终实现以数据为基础、以场景为导向、以算法为支撑的智能运维平台落地,构建互联网模式+金融新核心的健康助听器。