北京银行：“京智大脑”人工智能平台

http://www.chaguwang.cn 2022-07-18 北京银行内幕信息

来源 :金科课堂2022-07-18

　　获奖单位：北京银行

　　荣获奖项：专家好评TOP10优秀案例奖

　　一、项目方案

　　近年来，金融科技对金融业态发展的重要性进一步凸显，建立企业级AI平台来支持营销、风控场景成为银行业共识。随着我行数字化转型战略加速推进，全行各业务线对包括语音、语义、图像、知识图谱、机器人等在内的AI能力需求日益迫切。人工智能正在快速渗透各个关键业务场景，人工智能技术的应用从单一数据挖掘拓展到认知感知技术结合的混用模式。

　　在此背景下，我行于2021年启动“京智大脑”项目建设，以满足全行各业务条线对智能化应用的交付需求，持续提升人工智能核心技术的掌握和应用水平，统筹人工智能应用的数据、算力、算法资源，锤炼懂业务、懂技术的数字化人才队伍为目标，通过本项目建设，逐步形成我行的“AI技术底座、AI能力中台、AI服务中心”。

　　“京智大脑”总体架构，以企业级人工智能平台为支撑，通过语音、图像、文本等智能识别引擎的引入，形成“左脑”感知能力。以各类机器学习模型、知识图谱和大规模预训练模型的自主建设打造“右脑”认知能力。以RPA流程机器人、客服机器人、外呼机器人、质检机器人、虚拟数字人等机器人和智能化API服务为“躯干”应用载体。

　　北京银行“京智大脑”是全行统一、集中、智能的AI中台，通过打造四个中心（数据处理中心、模型交付中心、算法部署中心、模型管理中心），形成行内模型开发运营一体化模式。不仅改变了传统的竖井式数据加工及AI服务开发模式，更通过MLOps的模型开发及运营模式，实现从数据源管理、数据标注、数据加工、模型训练到模型管理、服务发布、全服务监控等 AI 建设，有效满足各业务领域对人工智能应用需求，并大大降低AI服务的交付周期。同时本系统落实监管文件要求建立全行级模型管理办法，规范数据加工、模型训练和算法引入的操作流程、安全机制和系统支撑，同时满足各业务条线敏捷交付的需求和模型风险管理的监管要求，为各金融智能化场景的建设提供坚实的支撑。

　　系统的逻辑架构图如下：

　　图京智大脑平台逻辑架构图

　　二、创新点

　　“京智大脑”人工智能平台从数据域、能力域、服务域、管理域四个角度进行建设，为科技开发人员提供全栈的AI类项目交付环境、数据标注分析与训练环境、业务分析建模环境和第三方模型部署和纳管的统一管理。

　　1.数据域层面，实现结构化数据和非结构化数据的汇聚、存储、治理和计算的人工智能数据管理平台

　　利用大数据计算引擎，实现了建模数据的采集、清洗和加工，提供语音、文本、图像、视频等多种类型的数据标注能力，帮助建模人员快速完成数据准备。建设特征平台子系统，实现数据指标的系统化管理、各模型版本指标筛选过程的归档管理，根据监管要求实现训练数据可追溯性、特征定义可解释性和算法可解释性。

　　2.能力域层面，建设拖拽式深度建模和机器学习建模的人工智能训练交付平台

　　集成PyTorch、PaddlePaddle等10种机器学习框架、预置146种算子，提供交互式、可视化、自动化3种模型训练方式，借助成熟的自动机器学习技术，帮助业务人员自动化完成模型训练和验证工作。根据已发布的模型逐步形成全行级模型资产库，管理行内外采及自建的模型并对外提供各类能力。可通过能力域组件统一纳管北京银行AI能力，同时具可通过服务编排形成组合服务能力，并终通过服务域实现服务共享。

　　3.服务域层面，为应用场景提供“开放、共享、云边协同”的服务生态

　　从各类用户的需求出发，通过连接AI基础平台和能力域能力，作为统一服务出入口，纳管银行引入的各类第三方AI服务，对内外提供开放、赋能和运营的能力，快速形成AI中台。

　　4.管理域层面，建设人工智能模型入模指标和模型表现的自动化监控体系

　　对风控模型实验室系统进行改造建设模型监控子系统，符合监管要求。对各版本模型入模指标和模型表现情况进行自动化监控，定期生成模型运营报告，内容涵盖监控情况、服务情况，为模型持续迭代提供优化建议。建立模型知识库，实现人工智能模型建模报告的系统化管理，入模指标、模型逻辑的知识沉淀。

　　三、技术实现特点

　　1.利用大规模预训练模型和AutoML技术，提升AI交付效能

　　平台预置超大规模预训练模型，包括视觉方向超大规模预训练模型、NLP方向的文心ERNIE，结合迁移学习技术，使得少量数据即可获得高精度的模型效果，因此能够大量节约新模型开发的成本，提升AI研发和应用效率。预训练模型基于海量互联网数据训练所得，图像分类模型相比开源模型Top1识别效果平均提升7.73%，物体检测模型相比开源模型平均准确率提升4.53%，NLP情感分析任务所需数据量可减少90%，同时多种任务效果指标获得10%以上的显著提升。

　　平台支持自动化机器学习（AutoML）。超参数对模型效果有重要的影响，不同数据集最佳超参数并不相同，人工调参成本高，因此我们提供了自动超参搜索的功能，帮助调优模型提升精度，降低人工调参成本。目前我们已覆盖了图像分类、物体检测的自动数据增强和通用超参搜索，以及机器学习方向的自动搜索。自动数据增强搜索服务在图像分类单标签多个任务准确率平均提长了5.42%,最高一项任务获得了18.13%的效果提升；在物体检测多个任务上准确率平均提升了1.4%,最高一项任务获得了4.2%的效果提升。通用超参搜索方面，在多个数据集上使用超参搜索后效果均有提升，在默认参数精度已经超过85%的情况下，使用超参搜索仍能提升约5%，在默认参数效果较差的情况下，超参搜索的提升效果更为明显，可高达22%。

　　2.基于MLOps思想，打造一体化、全生命周期的AI模型开发和部署流程，保障建模过程安全合规

　　平台提供覆盖AI能力生产、管理、应用、运维全生命周期能力支撑，同时基础管控模块提供强大的资源接入、调度管理、权限、安全等管理能力，是企业实现集约化管理，支撑高效创新应用的强大基石。

　　数据标注方面，平台支持非结构化数据的智能标注。智能标注分为主动学习和指定模型两种模式，支持目标检测、实例分割、文本分类、实体抽取四种任务数据类型。主动学习指基于用户标注少量数据，训练专有智能标注底层模型，通过多轮从未标注数据中筛选难例并推荐给用户优先标注，不断提升标注模型的效果，从而实现大量未标注数据的自动标注。指定模型指利用在平台上训练好的高精度模型对用户数据进行一键标注。两种模式均可以帮助用户降低数据标注成本。主动学习模式下，用户只需标注30%的数据，训练出的智能标注模型与全量标注数据训练模型的效果几乎等同。

　　AI模型开发方面，平台面向不同的场景和使用人群，提供多模式的AI开发功能支撑和体验。面向零算法人群提供EasyDL零门槛AI开发平台，面向专业算法工程师提供BML全功能AI开发平台。同时面向业务应用场景，提供场景化定制平台。在模型算法库层面，内置多个产业级模型库，提供超过270个算法模型。同时针对客户流失等主流任务场景，提供端到端模型库，覆盖通过模块化的设计和端到端的体验，满足企业低成本开发和快速集成需求。

　　AI模型服务方面，平台支持模型一键发布，可提供统一的认证流控、灰度升级、弹性伸缩、AB实验能力，以及6种通用监控指标，可根据多种物理资源使用率以及业务请求量指标自动触发弹性伸缩，AB实验支持按照比例或关键字进行动态分流。同时，平台支持丰富的模型纳管和服务编排能力，模型纳管包括模型文件纳管，模型镜像纳管，helm chart包纳管等。根据纳管的模型，按照业务场景对预测服务进行可视化编排，组合成工作流模板的应用程序集成类产品，可以更简单、更直观、更快速地构建和更新应用。京智大脑的模型能力均能够纳管到AI中台。同时可广泛适配主流框架和模型类型，包括PaddlePaddle、TensorFlow、PyTorch、Caffe等深度学习框架，SKLearn、GBDT、R、POJO、MOJO等机器学习框架，以及PMML、PyModel等通用格式。

　　3.构建多模态、准实时、分布式的特征仓库，形成AI数据资产沉淀

　　平台采用大数据技术，运用spark、hbase、kafka、GlusterFS等组件，构建了分布式特征仓库。特征仓库支持结构化、非结构化、半结构化等多种数据类型，支持准实时的特征加工、存储和查询，支持数据脱敏，保障数据安全合规。平台已形成1000余个原始指标沉淀，可支持零售、对公场景的AI模型训练和开发需求。同时，平台提供数据回流功能，可收集在线服务的反馈数据，并用于模型再训练，形成模型闭环。

　　4.利用容器云和微服务技术，建设可弹性扩展、独立部署的统一AI认知、感知服务中心

　　平台采用容器云、微服务技术，建设了可弹性扩展、独立部署的AI服务中心，主要包括“左脑”感知、“右脑”认知两类AI服务。

　　感知方面，平台引入了多家厂商的语音、图像识别服务，提供集中管理的AI服务。以语音服务为例，依托服务中心统一管理、标准化服务、无感替换的技术能力，建立了语音服务资源池，每年根据语音服务质量，对资源池进行动态调整，实现了智能语音领域各类技术服务的安全可控。智能语音服务中台可管理不同厂商语音引擎能力，可以通过中台直接分配用户权限与语音引擎能力授权，实现了不同厂商语音引擎的统一接入、统一接出。各业务部门应用场景，可根据各自特定需求（如方言识别率、语音合成特色等）选取不同厂商的最优引擎能力，只需调用智能语音中台统一SDK即可，降低开发复杂度，有效提高IT资产利用率。此外，智能语音中台可以对音频进行标注，提升语音识别的准确率。还实现了对各类语音能力的监控管理，实时监控系统运行情况，确保不同场景下的服务可靠性。

　　认知方面，平台运用图挖掘、多模态大模型等方法，赋能银行智能营销、智能运营、智能风控建设。一是建立平台级知识图谱技术能力，综合运用大数据处理和机器学习技术，实现“数据接入、模型训练、知识抽取、知识存储、知识应用”等技术功能，推动多个业务图谱应用落地，包括个人隐藏可疑账户挖掘和欺诈团伙挖掘、企业上下游关系挖掘、反欺诈图谱等。二是应用千亿级参数的超大模型，实现视觉、文本、语音三个模态监的高效协同，可提供智能问答、摘要生成、多语言情感分析、多语言短文本相似度计算等功能。

　　5.助力普惠业务营销获客创新数据价值挖掘手段，支持拓客营销能力提升

　　利用NLP、机器学习、图分析等技术，结合行内存量数据与海量第三方信息，完善对公客户画像，沉淀客户特征181项，输出营销线索40项，落地科企贷、对公银税贷营销评分模型及响应率评分模型，为各经营单位输出普惠营销名单。优化千人千面理财产品推荐模型，深度挖掘客户营销价值，平均召回金额提高1.2倍。

　　6.建立反欺诈图谱，支持断卡行动，助力账户风险排查和监控

　　依托图计算、图挖掘、图查询技术，形成知识图谱的构建、挖掘、分析、管理与服务发布的图谱全栈技术交付能力。通过建立企业、自然人2类实体，投资、任职、一致行动人等8类关系，构建企业基本关系、集团派系、资金交易3大模型。平台已录入约3亿实体，5亿关系，为欺诈风险防控提供底层图谱服务技术支持，提升欺诈风险防控能力。

　　7.依托“左脑”感知能力，构建智能客服体系

　　建设“京灵”语音机器人，将语音能力、自然语言理解、多轮对话等相关AI技术进行有效沉淀，为智能客服体系的完整链路提供技术支撑，实现多模态交互能力。促进关键业务场景线上化转型，提升服务人工替代率，打造沉浸式服务体验。

　　8.依托RPA流程机器人等“躯干”应用载体，打造数字员工，助力智慧运营

　　搭建监管统计报送应用机器人，自动化完成1104报表、普惠金融日报、人行日报等报表报送，避免人为操作风险并提高工作质效。截至目前，“京牛”流程机器人已推广至17家分行、经营单位，全行部署机器人108个，可为总、分行经营单位节省约3125人/天，业务准确率达到95%以上。

　　四、项目过程管理

　　1. 2021年3月，需求分析阶段

　　此阶段时间段为2021年1月至2021年2月，其间主要完成：行业模式调研、项目可行性分析、需求分析等工作。

　　2. 2021年5月，系统设计阶段

　　此阶段起始时间为2021年3月至2021年5月，其间主要完成了系统设计工作，提交了AI中台系统详细设计说明书、项目实施计划等文档。

　　3. 2021年10月，系统开发及测试完成

　　此阶段起始时间为2021年6月至2021年10月，其间完成了人工智能平台的开发、测试以及上线准备工作，提交了系统测试报告、上线方案、系统操作手册等文档。

　　4. 2021年11月，系统上线并释放首个应用

　　此阶段起始时间为2021年11月至2021年12月，其间完成了系统上线，并投产部署了首个模型。

　　5. 2022年4月，支持全行“京智杯”数字化大赛。

　　6. 2022年5月，完成行内存量模型迁移。

　　五、运营情况

　　“京智大脑”（一期）项目，系统和业务同步建设，系统投产后，释放首批14个数据挖掘模型和46项AI中台服务，有效支持营销、风控、运营、服务活动。

　　1.数字化营销方面

　　发布面向高新企业客群的科企贷、银税贷产品营销模型，支持普惠拓客提升，输出北京、南京、深圳地区优质客户名单1万余户；支持零售线上、线下营销管理，优化财富体检、千人千面模型，新建贵宾客户流失模型、手机银行客户激活模型，千人千面理财产品推荐模型日均覆盖金额超过16亿元。

　　2.数字化风控方面

　　支持数字风控系统建设，以“京智大脑”平台、风险滤镜、风险模型实验室，形成模型研发、部署、运营全生命闭环。线上业务沉淀全行各类线上业务风控模型150余个；支持保卫部、运营管理部多个反欺诈模型建设，识别疑似风险账户3800余个。

　　3.数字化运营方面

　　依托流程机器人全面应用，人工替代量达3万余小时/年，人员替代率达到0.43%（建行0.18%、兴业0.39%），业务操作准确率达到95%以上。

　　4.数字化服务方面

　　支持智能客服体系建设，语音导航机器人“一说即达”服务可为每通电话节约近40秒时间，电话分流率达33%，客服机器人会话量达260万，问答成功率达96%。

　　六、项目成效

　　“京智大脑”企业级人工智能平台从投产至今，已经在总行16个业务部门，14家分行，十余个场景中帮助业务释放价值，基于人工智能技术，为业务层提供了数字化转型的技术支持，满足全行各业务条线对智能化应用的交付需求，持续提升人工智能核心技术的掌握和应用水平，统筹人工智能应用的数据、算力、算法资源，助力营销、风控、运营等业务开展。

　　项目落实人行2021[85]号文对AI全生命周期提出了明确的技术标准，坚决贯彻落实国家战略，强化业务模式创新、服务方案创新、渠道合作创新“三项创新”为北京银行数字化转型赋能。落实监管文件要求，2021[78]号文《中国人民银行关于发布金融行业标准规范人工智能算法金融应用的通知》，加强对人工智能算法金融应用的规范管理和风险防范，夯实模型风险管理体系，明确模型开发、验证、使用主体在模型全生命周期管理中的职责和分工，对人工智能模型进行统一管理。

　　七、经验总结

　　作为我行战略性项目，“京智大脑”的建设是我行数字化转型的核心环节与重要的任务。一方面陆续承接传统AI项目交付之责任，另一方面则担任业务应用人工智能服务新模式开创者的角色。AI中台作为企业级AI服务的核心，其建设过程涉及多部门、多技术平台，是工作量繁重及十分复杂的工程。该工程的实施不仅是实现上线运行，且要持续推动应用创新，因为企业对人工智能场景的建设需求是源源不断的，故不仅要考虑平台如何搭建更要考虑平台如何运营，使平台持续产生价值。

　　在项目建设伊始，便确定需以强有力的组织和稳定的团队为保证，以技术实力雄厚的合作公司护航，以业界主流的敏捷开发为实施方法论，基于MLOps思想，打造一体化、全生命周期的AI模型开发和部署流程，保障过程安全合规。项目设定确实可操作的目标，遵循“分步实施，步步见效”的指导思想，按照“开发、试点、推广、优化”四大建设步骤循环推进，逐步丰富整体框架内的内容，最终实现整体目标。

　　通过进行充分的应用调研及可行性分析，明确项目整体目标和技术框架，并充分进行实施风险及合规性分析。从组织高度充分明确各成员组的职责，项目各成员都可以按照统一的标准进行建设，并以“业务导向、技术为本、科技赋能”的建设思想为指导，使得项目实施目标高度一致，动作执行有序。

　　本项目作为北京银行数字化转型的重点项目，不仅成功实现预期目标，更开创了人工智能技术的应用从单一数据挖掘拓展到认知感知技术结合的新模式。在金融科技快速发展的时代，使得北京银行业务的快速迭代和创新有了更强的智能化保障，使得北京银行更加具备市场竞争力和科技输出能力。