雷锋网消息,近日,腾讯天衍实验室联合微众银行联合研发了医疗联邦学习框架,实现了在保护不同医院数据隐私下的疾病预测模型,破解医疗行业数据安全与隐私保护难题。
作为医疗AI成长道路不可或缺的“粮食”,数据一直是医疗AI落地的“拦路虎”。我国医疗健康数据领域长期存在“信息孤岛”问题,不同地区甚至不同医院间的医疗数据没有互联,也没有统一的标准。与此同时,数据安全问题也存在着巨大挑战。
据雷锋网了解,这是联邦学习在医疗健康大数据领域应用的一个成功案例,为医疗大健康的各种潜在应用如分诊诊疗、慢病防控、疾病早筛、医保控费的落地等探索出了新的方向。
在重大疾病早期筛查和预测领域,如果要成功能建立大数据疾病预测模型,就需要将居民在不同医院的医疗信息与健康档案进行整合与建模。
但由于信息系统不统一,医院管理机构对于数据隐私泄露的担忧,和相关数据保护法规的限制,相关机构之间形成了数据壁垒,很少有医院愿意进行数据的共享,这就导致了AI难以在疾病预测领域“施展拳脚”。
这也是近年来联邦学习方法日益受到关注的重要原因。
2016年,谷歌率先提出该技术,而后微众银行则在首席人工智能官杨强教授的带领下首次提出了“联邦迁移学习”,并开源自研联邦学习框架Federated AI Technology Enabler(简称FATE),推动联邦学习技术在行业中的落地。
目前,联邦学习在金融、互联网、智慧零智等领域已经有多个成功应用案例,但在医疗领域,由于医疗知识的专业性,电子病历的复杂性对联邦学习的构建带来了种种困难。
结合自身医疗机器学习与自然语言处理的先天优势,腾讯天衍实验室与微众银行共同将联邦学习与医疗深度融合,通过搭建基于联邦学习技术的大数据集中与挖掘平台,开发医疗联邦学习(Medical Federated Learning)技术。
图片来源:天衍-微众投稿给人工智能顶级会议IJCAI 2020的论文
联邦学习可以绕过医疗机构之间的信息壁垒,不考虑将各自数据做合并,而是通过协议在其间传递加密之后的信息,该加密过程具有一定的隐私保护机制,保证加密后的信息不会产生数据泄露。各个医疗机构通过使用这些加密的信息更新模型参数,从而实现在不暴露原始数据的条件下使用全部患者数据的训练过程。
举例来说,假设医院 A 和 B 想联合训练一个脑卒中疾病预测模型,两个医院各自掌握科研病例数据,此外,医院 B 还拥有模型需要预测的标签数据如脑卒中发病标签。出于数据隐私保护和安全考虑,医院A和 B无法直接进行数据交换。联邦学习系统则可以利用基于加密的患者样本对齐技术,在医院 A 和 B 不公开各自数据的前提下确认双方的共有患者,并且不暴露不互相重叠的患者,以便联合这些用户的特征进行建模,在确定共有用户群体后,就可以利用这些数据训练疾病预测模型。
在这样的一种方式下,联邦学习技术就实现了保护不同医院数据隐私的疾病预测模型,而这项技术也在疾病预测领域落地,天衍实验室和微众银行成功构建了一个“脑卒中发病风险预测模型”。
脑卒中预测准确率达80%
在构建疾病预测模型过程中,不同医院数据缺乏标准化是关键性难题。
首先,双方通过搭建的大数据集中与挖掘平台,构建医疗健康领域机器学习、深度学习、自然语言理解、文本特征抽取、多种关系网络等多种大数据模型,对地区居民连续电子病历和其它数据进行多重关联和信息抽取。构建带有时间标志的重大慢病标签(脑卒中、冠心病、肿瘤、慢阻肺等)与大健康医疗特征(疾病、用药、检查、症状、手术、费用、家庭关系、行为、生活、环境),并对不同医院构建统一的数据标准形成疾病标签集与特征集。
对疾病预测模型所需特征进行标准与归一化后,再将标准化模型部署到不同医院,各医院按照该标准对自有的疾病、用药、检验检查、症状、手术等方面的数据进行清洗,形成各自的标准化的疾病标签集与医疗特征集,再以此建立巢式病例对照研究队列,基于联邦学习算法协议,有效训练机器学习模型。
通过使用来自就诊记录数量TOP5的医院真实就诊数据验证,联邦学习模型和集中训练模型表现几乎一致,在脑卒中预测模型中的准确率达到80%,仅比集中训练模型准确率降低1%。
同时,联邦学习技术显著提升了不同医院的独立模型效果,特别是,对于两家脑卒中确诊病例数量较少的医院而言,联邦学习分别提升其准确率10%和20%以上。
除疾病预测模型外,双方还会围绕联邦学习在医疗大数据领域的应用落地进行更多维度的合作,包括医保控费、合理诊断、精准医疗等领域,例如通过联邦学习助力电子健康卡实现保护用户隐私建模等等,进而促进医疗健康产业发展,提升医疗服务的质量。