医疗数据价值安全共享,从“两难”到“两全”,势必要拥抱隐私计算
隐私计算是不是花拳绣腿,叫好不叫座?隐私计算如何释放医疗数据价值?
4月12日-15日,雷峰网(公众号:雷峰网)《医健AI掘金志》以《隐私计算,让AI释放医疗数据的价值》为话题,邀请了四位隐私计算企业CXO及产品负责人,以线上云峰会的形式,讨论隐私计算的技术路线、以及医疗场景下的实际应用前景。
在本次医疗隐私计算云峰会的第三期,蚂蚁集团智能平台产品总监曹剑以《隐私计算技术在医疗行业的方案与实践》为题,依次分享了自己对医疗领域隐私计算的理解和认知、蚂蚁在隐私计算领域的产品架构、隐私计算如何服务医疗行业等三个方面。
此次的分享嘉宾曹剑,长期从事蚂蚁数字科技的相关工作,包括隐私计算、知识图谱、深度学习平台等。
他表示,隐私计算做的是数据价值的融合,而非数据的融合。长期来看,基于隐私计算会构建起一张张数据价值的共享网络,从而加速数据的合规开放与价值融合。未来,隐私计算技术会成为与通信网络同样重要的基础设施能力。
以下为曹剑的分享内容,雷峰网&《医健AI掘金志》作了不改变原意的编辑及整理。
隐私计算的定义与组成
从定义上看,隐私计算指的是多方参与且各方“互不信任”的场景下,聚合多方的数据信息,并且在保护数据隐私的前提下,提供的智能计算范式。
“互不信任”要打一个引号,是因为任何公司在做商业合作,或数据共享的过程中,我们默认这是一个“互不信任”的场景。
其中要明确两点,隐私计算的问题是多方参与、互不信任,目标是聚合多方数据,并保护数据隐私。
简单说,隐私计算做的是数据价值的融合,而非数据的融合。
那么整个隐私计算的组成是什么?
从蚂蚁的视角来说,第一,隐私计算它不是一个单一的技术;第二,它不是一个独立的应用产品,而应该是一系列技术和场景化产品的有机组成。
下层我们有计算环境的相关技术,比如可信执行环境,安全沙箱,软件安全保障,做到数据和模型计算环境的可控和安全。
中层是隐私计算所需要的基础技术,包括去标识计算和脱敏技术,做到“可算不可识”;以及密态计算技术,做到“可用不可见”。
顶层是常见的应用技术,比如联邦学习,多方安全机器学习,隐私枢纽、多方安全数据分析等。
从前年开始,隐私计算的赛道变得越来越火。尤其是在去年下半年的《数据安全法》,《个人信息保护法》颁布后,国内从事隐私计算领域的同行变得非常多。
为什么隐私计算会出现网络效应?
在隐私计算的推广过程中,先是会由一些头部的机构或者企业建立起一张张独立的数据价值共享的“局域网”。在网络发展过程中,不同主体会觉得自己网络上的数据参与方还不够,所以网络和网络之间要做出进一步的互联。
比如在医疗行业中,地方卫健委、银行、政府会构建以自己为核心的数据合作单位网络。而这些数据价值共享网络就是基于隐私计算技术,把不同的计算节点部署在合作方中,构建的一张新的隐私计算网络。
所以在我们可预见的情况下,我们认为隐私计算会成为未来数据价值共享的一个底层通信网络类型的基础技术设施。
传统通信网络和隐私计算网络的结构
打个比方,在传统的通信网络中,最底层是通信网络的设备提供商,比如华为、中兴,海外的诺基亚思科;
中层有网络运营商,比如三大运营商和区域运营商华数、歌华;
顶层是内容增值服务商,比如各种互联网公司,从事电商、社交、娱乐等。
和通信网络相对应,我们认为隐私计算后续也会走向这样的产业分层:
最底层是隐私计算的产品技术服务商,比如蚂蚁、腾讯、华控等;
中层会有数据网络的运营商,比如政府部分单位和部门、通信运营商、金融行业征信机构等;
最顶层则会出现基于隐私计算网络的数据增值服务商,比如保险、助贷、营销、医疗等数据增值服务商。
总的来说,我们认为未来各行各业会基于隐私计算构建数据价值共享网络,将更多的内容和服务放在上面,在合规的前提下,释放越来越多的数据的价值。
蚂蚁在隐私计算领域的产品架构
蚂蚁集团从2015年开始投入到隐私计算相关的研究工作中,至今经过了三个发展阶段。
2015~2017年属于技术研发阶段。2015年,蚂蚁做隐私枢纽,开发了去标识化和脱敏技术;2017年开始做联邦学习和拆分学习;
2017~2019年属于PoC(Proof of Concept,概念验证)试点阶段。2017年,蚂蚁逐步进入到相关业务的PoC试点阶段,输出了基于多方安全计算的同态加密的机器学习等相关技术。
?2019年之后属于规模化落地阶段,蚂蚁集团逐渐服务于与自身业务相关的场景以及后续将蚂蚁的技术实践输出,对医疗等行业提供服务。
比如此前蚂蚁的服务更偏向于数字金融,推出一些相关产品,那么我们就能够把这种产品发展模式和技术分享给行业伙伴,支持更多的金融机构或数据合作方做多方计算建模。
直到2021年,我们逐渐做一些偏商业化的产品和服务,比如和医保、卫健和医院、药械等相关厂商提供技术场景服务。
具体来看,蚂蚁隐私计算智能服务平台的产品架构分为三层。
最底层是隐私计算节点,客户既可以部署在可信的IDC机房服务器,也可以部署在可信赖的VPC(Virtual Private Cloud,虚拟私有云)上。
中层是隐私计算服务平台,包括基础的节点管理、节点网络的授权,数据的管理及授权、以及联合项目的管理机制。
顶层是各种各样的行业应用解决方案,比如有针对各种场景的多方安全计算、联邦学习、多方安全统计分析、隐私求交等技术。
蚂蚁隐私计算产品的定位是成为未来隐私计算领域的基础技术设施提供商,所以我们会提供丰富的产品能力和API接口,供保险、银行、医疗、政府、零售、制造业等领域内的伙伴与客户使用,而针对不同的用户,如IT人员、数据管理员、数据开发人员,提供图形化建模工具降低联合建模门槛。
此外,针对不同的客户群体,蚂蚁也提供了不同的部署架构。
对于一般客户,该隐私计算架构部署在本地或云端;对于大客户,我们提供了一个中心化的公共云管控平台,方便他们转至云端。对于一些有部署要求的客户,该管控平台也可以部署于本地,方便他们随时调度。
目前,蚂蚁将这一隐私计算服务平台打造成了一个中心化平台加分布式计算节点的模式,中心化平台可提供服务、管控、运维等中心化服务,包括模型开发,模型部署,模型服务监控等。
而蚂蚁之所以采用这样一个中心化的架构平台,是因为我们发现,当我们的网络达到一定规模时,如果没有一个中心化的管控服务平台,那后续整个网络的管控、运维和扩展可能会遇到各种各样的挑战。
总体来说,不同企业推出的平台架构会结合自身的发展路径,从而有所区别。
但坦率来说,隐私计算技术从二十年前兴起到现在逐渐落地,还没有完全成熟。和通信网络技术相比,隐私计算各平台之间没有互联互通。
尽管目前隐私计算已经具有各种行业标准、国家标准、国际标准,但在具体的项目落地上,每家隐私计算厂商会有自己的一套技术和实践机制,各平台之间难以共享技术成果。
目前,蚂蚁和洞见等国内领先隐私计算同行在推进隐私计算的互联互通工作。
比如今年年初IEEE 标准委员会发布并推行的基于可信执行环境的隐私保护机器学习的国际标准(IEEE Std 2830?),是首个基于可信执行环境的隐私保护机器学习技术框架与要求的国际标准,由蚂蚁集团联合国内外知名高校、研究机构共同立项、筹备、制定。
隐私计算如何服务医疗行业?
在医疗行业,我们与医保、医院、卫健、药械厂商都有合作,在合作过程中我们发现,隐私计算作为一项新的技术能够很好地适配医疗行业,为医疗行业的数字化与智能化带来新的解决问题的办法。
第一,隐私计算服务于医疗保险理赔。
在保险理赔场景,我们在2018年尝试了将隐私计算技术应用到具体业务中,和传统保险理赔方式不同的是,它不再需要保险人员人肉跑各方资源,只需要线上接入一些数据接口,就能查询到理赔相关的数据,从而判断是否符合理赔条件。
隐私计算能非常好地实现这一目的,保证数据在不出域的情况下可用。
首先是获得用户授权,在已授权的情况下,我们设定一些数据逻辑查询,比如理赔客户在投保前是否已获得某病种诊断、诊断记录是否和初始投保说明相悖、客户在过去两年中是否有相关住院记录、险种是否超过15天或30天。
第二,隐私计算服务于医院数字化运营。
在近两年医保支付改革的背景下,蚂蚁隐私计算平台和阿里云数字医疗团队合作,为医院搭建了面向医院运营管理的数据融合平台。
比如利用智能算法(OCR、知识图谱、文本挖掘LP、DRG分组等),动态规范整个医护的临床行为,为管理者提供数字化绩效管理分析,帮助医院建立精细化运营管理体系,减少医院的经济风险或临床风险。
那么隐私计算在其中的作用是什么?
一是基于多家医院数据构建的联合模型,解决单一三甲医院的数据量和数据的丰富程度不充足的问题;二是在跨医院合作中,保证联合建模的模型达到调优,保证数据安全可控、可用不可见的前提下,更好地发挥自身价值。
在这一案例向更多医院服务的过程中,贡献了两方面的价值:
一是病理质控。甲级病案例提升了10~20%;
二是DRG管理。2021年三个月时间区间内,阿里云团队与某三级医院合作,最终累计优化数十万结算,并通过编码入组,将医保反馈分析工作量显著降低。
第三,隐私计算服务于卫健临床附属决策。
很多基层医院医生有能力诊断普通外科和内科疾病,如感冒拉肚子、皮肤轻度创口,但对于部分具有区域性质的疑难杂症,很多基层医生和患者容易误诊,致使患者错过最佳治疗时间或引起医院管理纠纷。
但基层医院的诊断难题根源于我国的医疗资源不均衡现状,一是三四线社区和乡镇卫生所的病人数量少,二是医生的临床诊断能力未必高,医患之间存在不信任关系。那么病人就会涌向地级市和省会城市看病,暴露出省级城市挂号难、挂号贵的问题。
因此,卫健委提到,不同地区的区/县卫生所应该先对某一类疑难重病进行初筛,第一时间进行精准定位,再通过和省会大医院联手的方式做出更好的诊疗。
在这个背景下,我们提供了一个方案,基于隐私计算服务的卫健临床辅助决策。
由卫建牵头,在每家医院部署隐私安全计算节点,构建了一个联合模型,保证三甲医院相关科室的大量病案数据在原始数据不出域的情况下,通过数据训练有效提升决策系统的准确率。
最终,经过数据训练辅助诊断模型不仅能利用大型医院沉淀下来的数据,也能服务于各三四级地市及社区医院和乡镇卫生所,提高基层医院的疾病诊断能力。
第四,隐私计算服务于药械厂商。
国内外领先的制药和诊断方案厂商也存在隐私计算方面的需求。
第一,他们需要各大医院的诊疗设备数据回流,通过回流的数据训练自己的智能诊断模型。第二,他们希望通过隐私计算深化与医院的合作,发现自己的设备在诊断过程中的风险,从而提前预警。
目前多数药械厂商会在各大合作医院自建隐私计算平台,并在上面构建相关的诊疗数据模型。在完成PoC后逐渐去做规模化推广,被更多的头部医院所认可。
总的来说,隐私计算看似是很新颖的技术,但它已经服务于医保、医院、卫健委、药械厂商等,在医疗行业的应用十分广泛。
在最后的答疑环节,曹剑也针对隐私计算的技术问题和应用问题进行了解答,医健AI掘金志精选了4个问题。
Q1:隐私计算需要建模吗?联合建模对效果的提升显著吗?
隐私计算是用大家都会去用到的东西,去做同一个工作,比如用A的数据和B的数据做出比较,看谁比较多,这是最简单的数学上的比较或者计算。
在更多的场景中,我们可能需要通过建模做数值模拟。比如我和你可能都认识的一个人叫小明,我认为小明有4个标签,你认为小明有5个标签,那么我们构建了一个联合模型去概括小明,最终判断应该给小明贷多少款,或者判断小明的健康指数如何。
当然不同的场景不一样,我们需要基于具体的场景来分析。
那么补充一点是,有不少的客户说公司能养数据工程师就不错了,如果去建模的话,还要招聘建模工程师,隐私计算就变得门槛很高。之前我们提到过,我们其实除了提供蚂蚁隐私计算的智能服务平台外,也通过图形化的方式做了相关的简化模型,为大家降低了使用门槛。
那么,联合建模对效果的提升显著吗?
目前我们做过很多的实践,发现基于双方的数据做联合建模会比基于单方数据建模的效果好很多。但这不是绝对的,因为我们提供的是一个隐私计算平台,让大家都把数据放在里面,但最终的业务效果还是双方合作的结果。
第一,取决于双方的数据互补性,第二取决于双方的数据质量。我个人的观点是,未来任何一家公司,它的数据的量和数据的维度都是有限的,如果能在合法合规、满足相关监管要求之下发挥多方数据的价值,一定是未来的趋势。
Q2:隐私计算、区块链、联邦学习的区别
一、隐私计算和区块链:
有不少客户会问这个问题,我的观点是隐私计算和区块链是两种维度的不同技术。区块链偏向唯一性和确权,隐私计算偏向为了产生更大的数据价值,所以将双方的不同数据放在一起进行联合建模。
目前我所接触到的各种场景,也许只有在政府的一些数据开放平台的项目中,会同时用到区块链和隐私计算。但它们解决的是不同的问题。
在更多的场景里,比如目前我们所接触到的医疗行业场景,隐私计算和区块链没有在这种小场景中会共同出现。
二、隐私计算和联邦学习:
隐私计算是一系列的非常成体系的技术和应用产品的组合,我们会把它分为计算环境技术,基础技术、应用技术。
而联邦学习在我们看来是上面应用层技术,作用于某些特定场景,所以联邦学习底层会有很多的技术基础。
Q3:蚂蚁隐私计算服务平台的不同之处是什么?
我们架构中的每一个隐私计算节点,既可以部署在客户自己的服务器,也可以部署在公共云上,当然放在阿里云上是最好的。现在也有客户提到,他们的合作方是在海外,那么这个隐私计算服务平台也可以部署在海外平台。
第二个特点是蚂蚁隐私计算的平台架构是一个中心化的智能服务平台。
IT出身的人会知道,每个计算节点其实是一套软件,可以部署在机构一、机构二。
但不同机构之间的合作有的是长期,有的未必是长期;同时每家机构都在做自己的软件节点的升级工作,当不同机构之间的软件版本不同,运行状态不同、或者底层资源的消耗情况也不同时,这个联合项目就会出现问题。
所以从运维层面考量,如果没有一个中心化的平台去做管控,很多问题是很难被发现或者及时解决。
第三,我们在公共云上也做了相关整个模型开发的部署和监控等一套服务,做成了一个准SaaS的形式,比较符合很多客户的需求。因为有些客户会希望隐私计算能够按需提供相关服务,而不是传统的"软件购买+按年Renew"的方式。所以我们现在既可以为小客户提供"公共云+按需SaaS"的方式,也可以针对大客户提供"软件+订阅"的方式。
大家也会提到,日志回流时是否会把机构训练好的模型相关参数泄露给平台。这个不会的。本身这个隐私计算服务平台是类似于公共云服务,双方的相关业务数据是不通过服务平台的。
当然平台上会有一些日志数据,但是我们的原则是日志数据“不可碰、不可用”的,和一般的公共云服务的Promise非常类似。
Q4:隐私计算在医疗行业的应用,现在遇到的最大的阻碍是什么?
我觉得现在谈不上阻碍,因为这个技术在各行业的应用也就是最近一两年的时间,才刚刚开始。现在很多不同的角色都在尝试把隐私计算往实际落地,这是非常好的现象。
如果说阻碍的话,我觉得任何隐私计算都要看具体场景,平常我们会考虑两个维度。
一,隐私计算中的双方或多方能否达成数据价值共识;
二,隐私计算的参与方能够提供高质量、高稳定性的数据。
此外,医健AI掘金志也上线了曹剑的演讲视频,感兴趣的朋友可以关注公众号医健AI掘金志,对话框回复关键词“曹剑”,即可回看!