博弈论和共享经济 范德堡大学万之瑜博士、Bradley Malin教授等《Sci. Adv
点击蓝字关注我们
现代生物医学研究需要大量个人数据。如何在不侵犯任何人隐私的情况下公开详细的数据集是此类项目的一项重大挑战。为此,许多收集和传播基因组数据的研究项目会掩盖数据中的个人信息或者其他可用于重新识别受试者的信息。即便如此,残留的生物医学数据也有可能被用来与来自其他来源的个人信息相关联,从而挖掘出受试者的身份。
近期,美国范德堡大学(VanderbiltUniversity)万之瑜(Zhiyu Wan)博士及Bradley Malin教授团队及相关合作者在《ScienceAdvances》上发表了题为“Using game theory to thwart multistage privacy intrusions when sharing data”的论文(DOI:10.1126/sciadv.abe9986)。该研究团队已经开发了一系列方法来帮助评估和减轻生物医学数据分享中的隐私风险。他们的方法可用于保护各种类型的数据(如人口统计数据或基因组序列)免受针对匿名化的攻击。在本文中,该团队用两人领导者-追随者博弈论模型来模拟数据主体(数据主体或受试者指数据所对应的用户或病人)和潜在恶意数据用户(恶意数据用户或对手指恶意使用数据的组织或个人)之间的交互。在此模型中,数据主体首先行动,决定分享哪些数据。然后对手下一步行动,根据分享数据决定是否进行攻击。结果表明,博弈论模型可以有效地评估和有效降低隐私风险。此模型推荐的细粒度共享策略可以最大限度地减少成功重新识别数据主体的机会,同时最大限度地提高数据效用并保持已发布数据集的有用性和数据共享过程的公平性。该文章的第一作者及通讯作者均为范德堡大学生物医学信息学系博士后研究员万之瑜博士。具体来说,该研究团队调研了数据主体选择在公共数据库中分享多少基因组数据的情况。例如,数据主体可能分享整个序列、单核苷酸多态性(SNP)的子集、短串联重复(STR)的子集,或者根本不分享任何数据。此项工作的目标是确定数据主体的最佳数据分享决策,平衡数据分享的经济收益(或可以转化为货币形式的某些收益)和重新识别风险。反过来,重新识别风险来自两个方面:首先,对手(即任何有动机和手段试图确定匿名共享数据集中受试者身份的人);其次,公众已经可以获得的有关该数据主体的其他数据(可能需要支付一些费用)。在图1A中,该团队在Gymrek等人引入的一种重识别攻击的背景下说明了这种设定。其中攻击者首先使用被分享的数据和Ysearch(一个公共数据集)来推断个人的姓氏,然后使用这些附加信息执行涉及到第三个数据集的记录链接攻击。
图1。多阶段隐私攻击及其博弈论保护。(A)多阶段重识别攻击及其保护的系统示意图。攻击者可以通过三个数据库访问数据主体的个人数据记录:目标基因组数据库(D)、遗传谱系数据库(DG)和公共身份信息数据库(DI)。对手通过在第一阶段推断姓氏并将其链接到第二阶段的公共记录来重新识别基因组记录。数据主体仅在分享D中的数据时才选择基于博弈模型的分享策略。(B)以扩展形式表示的掩盖博弈。在掩盖博弈中,数据主体首先行动,然后对手移动。每个终端节点与两个玩家的收益都有关。Sj是一个0和1值组成的m维向量,代表数据主体的第j个具体动作。更多的符号使用细节在正文中。入伙博弈是掩盖博弈的一种特殊变体,其中数据主体只有两种策略。他们最初假设对手和数据主体对攻击成功的概率有相同的估计。该假设使之前描述的过程能够被正式地建模为Stackelberg( 即领导者-追随者)博弈论模型。其中数据主体充当领导者,选择要分享多少基因组数据。而对手充当追随者。其首先获得分享数据,然后决定是否执行攻击(见图1B)。为了展示模型并评估方法的有效性,该团队基于基因组数据集进行了两组实验。在一组实验中,他们使用了由来自Craig Venter地基因组记录的Y染色体上的STR组成的真实数据集,以及Gymrek等人使用的具有156,761条记录和100个Y-STR的Ysearch数据集。为了保护相应受试者的隐私并实现可复制性,他们在不影响演示的情况下对原始数据集进行了处理(即为了隐私保护而进行了一定修改)。在另一组实验中,为了评估方法在更大、更可控的环境中的有效性,并在不考虑隐私问题的情况下促进可复制性,他们模拟了600,000个人的遗传谱系群体,从中采样了多个数据集。为了进一步评估方法在各种情况和不确定性下的有效性,他们对八个参数和三个实验设置进行了敏感度分析,并对三个参数进行了稳健度分析。他们使用带有剪枝的反向归纳算法进行了100次实验,结果如图2所示。图2A是显示了所有八种场景下数据主体平均收益分布的小提琴图,图2B是显示了数据主体在每种场景下的平均隐私和效用的散点图。
图2。在八种场景下针对1000名受试者的多阶段重识别攻击的防护有效性度量。(A)数据主体平均收益的八个分布的小提琴图。其中每个分布对应一个场景。小提琴图(使用Seaborn描绘)结合了箱线图和核密度估计,用于显示数据主体在每种情况下的收益分布。使用了高斯核与默认参数设置。(B)数据主体的平均隐私指标和平均效用指标的散点图。其中每个标记对应一个场景和(100次运行中的)1次运行。图3显示了掩盖场景下第一次运行实验中前700个数据主体的最佳策略。在掩盖博弈中,对于大多数受试者来说,只有一小部分数据被掩盖。值得注意的是,无攻击掩盖博弈带来了全面的隐私保护,而单阶段掩盖博弈为这些数据主体带来了更好的平均收益。相比之下,在随机掩盖场景中,尽管平均隐私风险与博弈场景中的平均隐私风险几乎相同,但受试者的平均效用损失要高得多。
图3。随机掩盖场景和三个掩盖博弈场景中前700个数据主体的第一次实验的最佳策略。(A)随机掩盖场景。(B)掩盖博弈。(C)无攻击掩盖博弈。(D)单阶段掩盖博弈。每个非白色块表示数据主体掩盖了特定属性。每一行代表一个属性博弈论和共享经济,每一列代表一个数据主体。数据主体(属性)的分布汇总在顶部(右侧)的直方图中。箱数等于数据主体(属性)的数量。数据主体分为两组:左侧不会受到攻击,右侧会受到攻击(红色阴影部分)。每组中的列(或数据主体)按被屏蔽属性的数量降序排序。行(或属性)按数据集中属性的顺序排序。对于每种场景,平均收益、效用损失和隐私风险分别显示在顶部中心、左上角和右上角。对于每个数据主体,效用损失定义为1减数据效用,隐私风险定义为1减隐私。YOB,出生年份;DYS,DNA的Y染色体片段。为了测试模型对八个参数和三个实验设置的敏感度,该团队在11组实验中比较了八个场景中的有效性度量。在每组实验中,他们更改了一个参数或实验设置,并使用不同的样本数据集运行了20次实验。数据主体平均收益的八个参数和三个设置的敏感度分析结果如图4所示。
图4。数据主体平均收益作为模型中参数和设置的函数的敏感度。(A)对基因组属性数量的敏感度曲线图。(B)对缺失基因组数据比例的敏感度曲线图。(C)对置信度分数阈值的敏感度曲线图。(D)对遗传谱系数据集中记录数量的敏感度曲线图。(E)对已识别数据集中记录数量的敏感度曲线图。(F)对重识别损失的敏感度曲线图。(G)对分享所有数据的最大利益的敏感度曲线图。(H)对攻击成本的敏感度曲线图。(I)收益分布对策略采用设置敏感度的小提琴图。(J)对姓氏推断方法的敏感度的小提琴图。(K)对属性权重分布敏感度的小提琴图。每个线图(使用Seaborn描绘)显示了八种情景下数据主体的平均收益,误差线代表标准差(SD)。每个小提琴图(使用Seaborn描绘)结合了箱线图和核密度估计,用于显示数据主体在几种情况下的平均收益分布。使用了高斯核与默认参数设置。TMRCA,最近共同祖先的时间;KNN,k-最近邻。本研究中描述的方法使受试者能够在面对复杂的最先进的重识别模型时做出明智的数据分享决策。它使人们能够回答诸如“我应该将我的去识别化数据记录分享到一个开放的数据存储库中吗?”之类的问题。和“我应该将数据记录的哪一部分分享到开放数据存储库中呢?”此外,该方法具有足够的灵活性,使受试者能够在允许分享部分或修改数据的平台上做出决策。
在已知的对基因组数据的多阶段攻击的背景下他们对这种方法的展示推出了几个值得注意的发现。首先,虽然额外的阶段可以在没有保护的情况下大大提高重识别的准确性,但它使攻击更容易受到他们的博弈论保护,因为对手可能会被欺骗推断错误的中间信息,从而减轻隐私风险。其次,如果不允许部分数据分享,大多数(理性的)受试者会选择不将数据分享到开放数据存储库(例如,个人基因组计划)。相比之下,如果允许分享部分数据,大多数人会分享他们的大部分数据。这一发现很有趣,因为它表明为受试者提供选择可以鼓励更大程度的数据分享,同时避免重识别。第三,受试者可以选择允许分享大量数据的策略,其回报几乎与最佳解决方案一样高,同时确保数据接收者尝试重识别永远不会有收益,从而在建模框架的范围内预测无攻击和零风险。最后,广泛的敏感度分析显示了模型的参数如何以不同方式影响受试者的行为。这可以为其他利益相关者提供指导。例如,为了有效促进数据分享,政策制定者可以提高对检测到的隐私泄露的惩罚,而数据持有者可以提高对数据分享的奖励。此外,他们的分析还显示了数据主体应赋予每个参数的权重。具体来说,考虑到掩盖博弈中的敏感度,当分享所有数据的最大收益或攻击成本较低时,数据主体应格外小心。
分析证明了该方法的稳健性,虽然在保护力度不够的场景中攻击者可以将攻击损害和数据集大小等大多数参数推到对受试者来说有风险的地方,但掩盖博弈提供的高效且稳定的保护几乎是对这些风险免疫的。他们的博弈论模型可以应用于其他多阶段隐私攻击,例如成员推断和基因组重建攻击。对于那些可能需要更大计算量和效率的攻击,他们认为可以通过分布式计算架构的帮助来提高搜索算法的性能或图形处理单元,因为它们可以同时处理多个计算。为了应对解决复杂博弈模型的高计算成本,特别是在面对多阶段攻击的情况下,一种博弈即服务(GaaS)架构有可能部署在云服务器中,把分布式博弈建模和解决方案作为一种服务提供给数据主体。他们的解决方案有可能作为服务集成到现有的数据匿名化软件中,例如ARX(DOI:10.1002/spe.2812):该软件已经包含了用于风险分析的通用博弈论模块。该研究受美国国立卫生研究院(National Institutes of Health)的多个基金项目资助:RM1HG009034、R01HG006844、R01LM009989。该研究工作由范德堡大学(Vanderbilt University)生物医学信息学系博士后研究员万之瑜博士全程主导(包括准备数据、进行实验、完成初稿、后续修改及其它)。
华盛顿大学圣路易斯分校(Washington University in St. Louis)计算机科学与工程系副教授Yevgeniy Vorobeychik博士及德州大学达拉斯分校(University of Texas at Dallas)计算机科学系正教授Murat Kantarcioglu博士参与了课题设计,范德堡大学经济系正教授Myrna Wooders博士参与了模型及方法设计,范德堡大学计算机系博士研究生刘永泰及郭嘉参与了数据分析,范德堡大学法学院正教授EllenWright Clayton博士、范德堡大学生物医学信息学系助理教授尹志军博士及博士后研究员夏威夷博士参与了结果解读博弈论和共享经济,范德堡大学生物医学信息学系正教授Bradly Malin博士资助了该研究并对研究工作的全程进行了指导。该研究工作是该研究团队近期关于使用博弈论保护数据隐私的最新进展之一,建立在他们之前的研究的基础之上。在过去的几年里,该团队率先使用博弈论来评估健康数据中重识别的风险(DOI:10.1371/journal.pone.0120592)并防止对基因组数据的身份攻击(DOI:10.1016/j.ajhg.2016.12.002)。该研究工作与他们之前的研究最大的不同在于该工作是第一个考虑攻击者可以访问多个资源并以分步的方式组合它们的攻击的工作。
原文链接
作者简介
向上滑动阅览
万之瑜博士万之瑜博士是范德堡大学生物医学信息学系博士后研究员。他2020年毕业于范德堡大学(Vanderbilt University)工程学院计算机科学系,获得了计算机科学博士学位以及硕士学位。他曾就读于西安交通大学少年班,2011年获得自动化专业工学学士学位以及工商管理专业管理学学士学位。他的研究兴趣包括:数据分享中的隐私保护最优化,着重于健康和基因组数据;利用博弈论、人工智能和机器学习技术来改善社会福利;分析社交网络和网络安全。他最新的研究项目是使用博弈论来保护基因组数据免受隐私攻击。他已在《科学进展》(Science Advances)、《自然综述:遗传学》(Nature Reviews Genetics)、《美国人类遗传学杂志》(American Journal of Human Genetics)等国际期刊发表论文10余篇。
Bradley Malin教授Bradley Malin教授现任范德堡大学生物医学信息学系、生物统计学系、计算机科学系终身正教授,美国国家医学院院士,范德堡大学生物医学信息学系副系主任,范德堡大学健康数据科学中心主任,范德堡大学健康信息隐私实验室主任,荣获美国青年科学家与工程师总统奖(PECASE)。他的研究是在组织、政治和健康信息架构的背景下开发支持人工智能和机器学习的技术。他在多个领域做出了具体贡献,包括用于病历链接和预测建模的分布式数据处理方法、用于保护电子病历在初级保健环境中不被滥用的智能审计技术,以及用于正式匿名化用于次要研究目的患者信息的算法。他毕业于卡内基梅隆大学(Carnegie Mellon University),取得了计算机科学博士学位、机器学习硕士学位以及生物科学学士学位。他已在《科学》(Science)、《科学进展》(ScienceAdvances)、《自然综述:遗传学》(NatureReviews Genetics)、《美国国家科学院院刊》(PNAS)、《新英格兰医学杂志》(New England Journal of Medicine)、《美国医学会杂志》(JAMA)、《美国医学会杂志:内科学》(JAMA Internal Medicine)、《英国医学杂志》(BMJ)、《美国人类遗传学杂志》(American Journal of Human Genetics)、《公共科学图书馆:医学》(PLOS Medicine)等国际顶级期刊发表论文140余篇。
目前为止,文章引用次数达10100余次, H-index指数为52。他现任《医学互联网研究期刊:人工智能》(JMIR Artificial Intelligence)的主编及《美国计算机协会隐私与安全汇刊》(ACM Transactions on Privacy and Security)的副主编,也是《美国医学信息学协会期刊》(Journal of the American Medical Informatics Association)、《医学信息方法》(Methods of Information in Medicine)、《数据隐私汇刊》(Transactions on Data Privacy)等国际期刊的编委会成员。他共指导了7名博士后研究员、26名博士研究生、7名硕士研究生以及14名本科生。课题组主页。
相关进展
上海交大朱平教授团队与合作者 PNAS:数据驱动的非周期性超材料力学隐身衣设计
中科院纳米能源所陈翔宇研究员/王中林院士团队《Small》:用于水下能量收集与生物运动行为监测的穿戴式数据监测平台
北京大学潘锋教授Nat. Sustain.:基于材料基因大数据研发的“未名材料解析系统”投入应用服务
化学与材料科学原创文章。欢迎个人转发和分享,刊物或媒体如需转载,请联系邮箱:
扫二维码|关注我们
微信号 :Chem-MSE
诚邀投稿
欢迎专家学者提供化学化工、材料科学与工程产学研方面的稿件至,并请注明详细联系信息。化学与材料科学®会及时选用推送。
手机浏览,点击图片保存二维码到相册,然后打开微信扫一扫选择本二维码图片就可以进入,电脑端微信“扫一扫”二维码,进入找聊天搭子平台,里面有找饭搭子、找对象、找陪伴服务等等