超融合是数据中心基础架构领域的分布式形式,采用软件定义存储的形式,其核心是分布式块存储,与虚拟化技术结合,统一部署在X86服务器上。兴业证券致力于发展金融科技,提速“数字基建”,推进基础设施的“数智化”转型,2017年底开始采用超融合架构,经过三个阶段的规划和实施,现超融合已承载大部分的私有云业务。在超融合技术的应用过程中,兴业证券有效推进了私有云建设及业务的发展,但同样也遇到了一些技术和运维问题。随着自身业务和组织架构的发展,兴业证券深入思考超融合架构和基于服务器、SAN交换机和SAN存储的三层架构在企业基础设施中的优劣势及其最佳应用场景,并探索出两种架构在私有云建设中场景式的最佳实践。
一、引言
(一)超融合技术简介
随着证券公司业务增长的需要和金融科技的飞速发展,各家证券公司纷纷上线新的业务系统以支持日益增长的需求,加速数智化转型。基础架构作为整个信息科技的基石,其运行情况和证券公司各部门业务的关系越来越紧密,承担的责任也越来越重。对于兴业证券来说,要在保障业务高速发展和系统运行稳定性的同时,提升基础架构的管理效率和可扩展性,推进“数字基建”,加速全面数智化转型,为金融科技创新奠定坚实的基础。
超融合是数据中心基础架构领域的分布式形式,采用软件定义存储的形式,其核心是分布式块存储与虚拟化技术结合,统一部署在相同的X86服务器上。超融合显著的特点是:硬件架构开放、快速部署、运维简单、按需扩展、性能弹性等。随着技术的不断迭代和成熟,超融合逐步成为绝大多数企业私有云的坚实底座。调研机构Gartner公司表示,近几年超融合基础架构(HCI)市场发展迅速。预计到2023年,将有70%的企业运行某种形式的超融合基础架构,而2019年还不到30%。
图1 Gartner2020年超融合(HCI)软件的魔力象限
基于此,兴业证券以提速“数字基建”为目标,采用超融合架构应用于私有云建设。从2017年开始规划并分三个阶段实施:第一阶段,基于对企业IT架构稳定运行的考虑,选择一些边缘应用在开发测试环境试用,并取得了良好的成效;第二阶段,开始在生产环境采用超融合基础架构试点运行一部分非核心应用系统,以及部分重要应用系统的容灾环境,更多地体会到超融合基础架构带来的技术优势;第三阶段,兴业证券进一步扩展超融合节点,并将更多的企业级核心应用迁移到超融合基础架构,全面赋能集团业务安全稳健和创新快速发展。
二、超融合技术的应用
(一)业务规模
兴业证券的私有云分布在福州和上海两地共4个数据中心,从2017年底至今,随着业务的不断增长,私有云平台规模和超融合设备均保持快速增长。私有云整体规模已超过200台宿主机,运行近5000台虚拟机,其中超融合设备及其虚拟机均超过70%。
兴业证券私有云集群部署依据业务场景和网络区域的不同而划分,根据最佳实践建议单个集群规模保持在160-400台虚拟机不等,已建设十数个集群,整体规模排在行业前列。在应用类型上,不仅部署应用服务器,更部署对性能和稳定性有较高要求的数据库等重要应用。
(二)技术分析
超融合产品的核心功能是分布式块存储、虚拟化计算和运维管理平台,这三部分决定了一个超融合产品的优劣。
1、分布式存储
分布式存储是整个超融合技术的基石。主流核心厂商都无一例外的在分布式存储上有着核心的竞争力和自主研发能力。按照存储与虚拟化计算的整合方式,大致可以分为三类:存储服务作为内核模块运行在 Hypervisor 内部,存储服务运行于 Hypervisor 上独立的虚拟机内以及存储服务运行在 Hypervisor 外部。其中存储服务运行在 Hypervisor 外部适用于开源的 KVM 超融合,不在本次讨论范围之内。我们重点比较在企业应用中比较成熟的另外两种模式。
存储服务作为内核模块被整合,这种紧耦合架构下存储服务不经过Hypervisor直接访问存储设备,理论上本地 I/O 性能可充分发挥,但紧耦合架构存在以下劣势:(1)计算和存储无法独立升级;(2)计算和存储单个服务故障可能引发连锁崩溃,从而影响平台稳定性;(3)只能支持特定品牌,无法应用于其他平台。
存储服务运行于 Hypervisor 上独立的虚拟机里,该虚拟机实际起到虚拟存储设备的作用,实现了所有的存储逻辑和功能,包括虚拟机粒度的快照、在线压缩和去重、性能数据统计分析、集群健康检查、远程数据复制等。这种架构下计算与存储解耦,互不影响,可以独立升级,但理论上的I/O性能不如存储服务作为内核模块的模式。
图2?超融合技术对比图
2、虚拟化计算
虚拟机计算技术相对成熟,无论功能还是性能各个产品间差异不大。
3、运维管理平台
传统架构下需要分散运维管理多个 IT 平台,在超融合产品中采用一套管理平台管控性能数据统计、硬件诊断等功能。大部分品牌的运维管理平台可满足日常使用的各项功能。
综上所述各个超融合产品在虚拟化计算和运维管理平台两个方面差异不大,但在分布式存储这个核心技术上差别很大。出于对架构稳定性的考虑,兴业证券在生产环境部署松耦合架构的超融合,在开发测试环境部署基于紧松耦合架构的超融合。
(三)技术收益
1、降低基础架构复杂性
超融合架构的最大特点是通过软件帮助用户将服务器、存储等融合为一个整体,从而减少存储设备交换层,减少机柜空间,在物理上降低基础架构的复杂性。
2、提升运营效率
超融合集成管理系统,通过自动化运维减少人工操作,提高运维安全性。管理系统提供性能监控和容量报表功能,提升基础设施数字化水平和运营工作效率。
3、降低人力成本
超融合架构中存储以软件定义的形式存在,相较三层架构省略SAN存储和SAN交换机,减少对应存储管理员的人力资源配置,适应IT系统短平快建设要求。
4、提升整体性能
超融合性能较传统存储有较大优势,根因在于分布式缓存的应用。超融合集群中的每个节点均有独享的缓存,且可自行管理,从而提升了超融合的整体性能。兴业证券已将对性能要求较高的应用部署在超融合架构上,如Oracle数据库等,均运行正常。
5、提升交付效率
超融合采用链接克隆技术,创建虚拟机的速度从传统克隆模板的分钟级下降到秒级,大幅度提升交付效率,且在大批量创建虚拟机时,对存储层性能几乎无影响,而传统克隆模板的方式会影响存储性能。
(四)运维问题
超融合本身具有高可用性、高性能以及灵活易用的优势,可实现高效灵活的部署。应用超融合,能大幅提升IT管理效率,有效推进数智化转型。但在其大规模应用时,也遇到不少新的运维问题。
1、故障引发连锁反应,影响范围大
当超融合发生某些问题时,会导致整个集群故障或性能下降,如:
(1)因超融合内部校验机制问题,导致整个集群不可用,从而出现数百台虚拟机无法使用的情况,几十个业务同时遭受影响。
(2)因关键硬件(CPU,SSD盘)故障,导致超融合集群性能降级,从而出现虚拟机性能不足的情况,进而引发应用故障。
(3)因超融合软件问题,导致服务器宕机或管理节点故障,从而出现部分虚拟机重启的情况,进而影响业务稳定运行。
(4)因超融合架构紧耦合,在高并发情况下,出现计算和存储争抢资源的现象,引发应用故障。
2、版本更新频繁,单次升级时间长
超融合技术目前仍处于发展阶段,无论是软件版本还是微码版本均需要不断更新。据不完全统计,平均每月便有一个新版本发布,过于频繁的版本更新对生产稳定运行工作提出更高的要求。超融合软件版本升级不仅涉及其内部,更和硬件的配置和固件版本有强关联。超融合集群的版本升级,是一个自动化过程,在集群内每台设备会多次重启,超时未完成重启底层数据会重构。因为硬件版本等问题经常会出现意外,导致设备未在规定时间内重启,致使升级时间不可控。以9节点的单个集群升级为例,硬件软件版本升级完毕常常需要20小时以上,以兴业证券现有超融合集群规模,通常需要几周时间才能完成全量升级。
3、维护沟通成本高
除技术层面外,沟通协调方面也遇到新的挑战。例如系统版本升级时,系统管理员需要就升级窗口、验证步骤等问题与各业务相关方进行沟通协调,确定一致意见。且随着系统规模的不断扩大,版本升级次数、单次升级所需协同工作量及业务测试与验证工作量均有所增加,沟通成本和人力资源成本也水涨船高。伴随着超融合规模的扩大和应用的增加,随之而来的管理协调问题便愈加凸显。
三、混合架构的思考
超融合技术的全面推广,降低了兴业证券的基础设施的复杂度,提升了的运营效率,成为了“数字基建”的一大助力。超融合的运维问题也随着规模的扩大而日益凸显,虽然部分问题可以通过管理手段来优化,但是其架构紧耦合、版本升级等问题暂无法有效解决。因此,兴业证券开始对基础架构“数字基建”技术进行更进一步的思考。
(一)架构思考
兴业证券从应用现状、技术特点、管理难度、投入成本等四个方面对超融合架构和三层架构进行比较。
通过以上对比,三层架构所承载的业务规模和重要程度上均超过超融合架构,版本升级频率和采购成本也较低。超融合所需技术人员数量较少,仅在此项占优,但也仅适合中小规模应用,而在大规模情况下势必导致分工更细,需要计算、存储和网络技术人员。
(二)场景思考
“三分建设,七分运维”,借鉴金融科技现有经验,兴业证券在基础架构技术选型上作出了调整,在开发测试环境继续沿用超融合架构,而在生产环境将采用更加稳定的三层架构,结合正在进行的标准化、自动化、精细化和数据化建设,对在私有云上部署的应用做如下的规范:
1.?底层资源冗余建设,每个集群均有对应的冗余集群,同业务相同服务的服务器部署不同的集群;
2.?服务器和存储统一规范、统一管理和集中采购,提升采购效率和资源利用率,并统一配置,包括但不限于硬件配置,系统版本,系统设置等;
3.?稳定性要求较高的应用,使用三层架构;
4.?存储网络采用core-edge架构;
5.?三层架构存储采用0.5+0.5的双存储高可用模式,即在容量不变的情况下使用双存储代替单存储,防止单点故障,保障可用性但控制成本;
6.?丰富监控指标,如:存储IO延迟等性能指标监控;
7.?服务器和存储统一规范、统一管理和集中采购,提升采购效率和资源利用率;
8.?分级管理,统一规划网络,计算和存储的分布;
9.??定期进行应急演练,演练场景包括单个重要应用节点故障,单台物理服务器,单集群故障等,用于检验私有云高可用性,应急管理流程是否完善。
四、总结和展望
“数字基建”技术是基石,不同技术均有其适合的场景。超融合技术降低了基础架构的复杂性和人力成本,并提升了交付效率和运营效率,但受其紧耦合的架构限制,部分运维问题无法解决。三层架构的稳定性经过时间和业务的考验,在大规模应用中表现突出。随着全闪存储性能优越成本降低,三层架构的技术方案在成熟性、稳定性及成本等三方面优势明显,同时伴随着技术人员的精细化分工。为适应业务和技术发展的要求,兴业证券根据超融合和三层架构各自的技术特点,对其应用场景做了更细致的划分。
未来,兴业证券将以“数智兴证”为愿景,通过科技与业务的超融合,推动集团管理手段、业务模式、发展理念的创新,促进全集团内的数智化转型,助力公司成为“金融+科技”型的一流证券金融集团。