二维码
钻机之家

扫一扫关注

当前位置: 首页 » 新闻资讯 » 热点资讯 » 正文

计算机科学家制造嘈杂的数据:它能改善医疗保健的治疗吗?

放大字体  缩小字体 发布日期:2024-04-09 21:19:33    来源:本站    作者:admin    浏览次数:65    评论:0

  Computer scientists makes noisy da<em></em>ta: Can it improve treatments in health care?

  哥本哈根大学的研究人员开发了一种软件,可以掩盖敏感数据,比如医疗保健应用中用于机器学习的数据。这种方法保护了隐私,同时使数据集可用于开发更好的治疗方法。

  现代医疗保健的一个关键要素是为一大群患者收集和分析数据,以发现模式。哪些病人从某种治疗中受益?哪些病人可能会有副作用?

  这些数据必须得到保护,否则个人隐私就会被破坏。此外,违规行为会损害公众的信任,导致同意参与的人减少。哥本哈根大学计算机科学系的研究人员找到了一个聪明的解决方案。

  “我们已经看到了几个案例,其中数据被匿名化,然后向公众发布,但研究人员设法找回了参与者的身份。由于公共领域存在许多其他信息来源,拥有一台好的计算机的对手通常能够在没有姓名或公民代码的情况下推断出身份。”

  博士生Joel Daniel Andersson说:“我们已经开发出一种实用而经济的方法来保护用于训练机器学习模型的数据集。”

  人们对新算法的兴趣程度可以从Joel被邀请在谷歌技术演讲中得到体现。此外,他最近在NeurIPS会议上发表了关于机器学习的演讲。

  关键思想是通过在数据集的任何输出中添加“噪声”来掩盖数据集。与加密不同的是,在加密中,噪音被添加,然后被移除,在这种情况下,噪音会保留下来。一旦添加了噪声,就无法将其与“真实”输出区分开来。

  显然,数据集的所有者不应该对来自它的噪声输出感到高兴。

  乔尔·丹尼尔·安德森(Joel Daniel Andersson)说:“为了确保参与者的隐私,降低数据集的效用是必须付出的代价。”

  他指出,关键任务是添加足够的噪声来隐藏原始数据点,但仍然保持数据集的基本价值。

  “如果输出足够嘈杂,那么就不可能推断出输入中单个数据点的值,即使你知道所有其他数据点。通过对输出进行噪声处理,我们实际上为分析师和数据集之间的交互添加了安全轨道。”

  “分析师从来没有接触过原始数据,他们只是提出问题,然后得到嘈杂的答案。因此,它们永远不会了解数据集中个体的任何信息。这可以防止因分析数据而导致的无意或其他信息泄露。”

  不存在普遍的最优权衡。乔尔·丹尼尔·安德森说:“你可以选择符合你目标的取舍。对于隐私非常重要的应用程序(例如,医疗保健数据),您可以选择非常高的隐私级别。这意味着要增加大量的噪音。”

  值得注意的是,这有时意味着你需要增加数据点的数量——例如,在你的调查中包括更多的人——以保持你的数据集的价值。在隐私不太重要的应用程序中,您可以选择较低的级别。因此,您将保持数据集的实用性,并降低提供隐私所涉及的成本。”

  他补充说,降低成本正是该研究小组开发的方法背后的主要论据。“关键是你必须增加多少噪音才能达到给定的隐私水平,这就是我们的平滑机制比现有方法提供改进的地方。”我们设法用更少的计算资源添加更少的噪声。简而言之,我们降低了与提供隐私相关的成本。”

  机器学习涉及大型数据集。例如,在许多医疗保健学科中,计算机可以发现人类专家看不到的模式。这一切都始于用真实病例数据集训练计算机。这样的训练集必须受到保护。

  “许多学科越来越依赖于机器学习。此外,我们看到机器学习从医生等专业人士扩展到各种私人应用。这些发展带来了大量的新机会,但也增加了保护提供原始数据的参与者隐私的需要,”乔尔·丹尼尔·安德森解释道。他指出,对这些组织的新软件的兴趣远远不只是学术上的:

  “除了医疗保健行业、谷歌和其他大型科技公司,咨询公司、审计公司和律师事务所等行业也需要能够保护客户和调查参与者的隐私。”

  这个领域被称为差分隐私。该术语来源于单个数据点不同的数据集的隐私保证:基于仅在一个数据点不同的两个数据集的输出看起来相似。这使得分析人员无法识别单个数据点。

  该研究小组倡导公共机构对该领域产生更大的兴趣。

  “由于失去效用,更好的隐私保护伴随着更高的价格标签,这很容易成为市场参与者的竞底。监管应该到位,说明特定的敏感应用程序需要某种最低程度的隐私。这才是差别隐私的真正魅力所在。”

  乔尔·丹尼尔·安德森说:“你可以选择你需要的隐私级别,这个框架会准确地告诉你需要多少噪音才能达到这个级别。”他希望差异隐私可能有助于促进机器学习的使用。

  “如果我们再次以医学调查为例,他们需要患者同意参与。由于各种原因,总是会有一些患者拒绝——或者只是忘记——给予同意,从而导致数据集的值较低。然而,既然有可能提供一个强有力的概率保证参与者的隐私不会被侵犯,那么为了医学研究的利益,不要求同意并实现100%的参与在道德上是可以辩护的。”

  “如果参与的增加足够大,提供隐私带来的效用损失可能会被额外数据带来的效用增加所抵消。因此,不同的隐私可能会成为社会的双赢。”

  该作品发表在arXiv预印本服务器上。

  更多信息:Joel Daniel Andersson et al ., A Smooth Binary Mechanism for Efficient Private连续观测,arXiv(2023)。DOI: 10.48550/ arXiv .2306.09666期刊信息:arXiv由哥本哈根大学提供引文:计算机科学家制造嘈杂的数据:它能改善医疗保健的治疗吗?(2024, 1月16日)检索自https://techxplore.com/news/2024-01-scientists-noisy-treatments-health.html本文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

 
(文/admin)
打赏
免责声明
• 
部分文章来源于网络,我们均标明出处,如果您不希望我们展现您的文章,请与我们联系,我们会尽快处理。
0相关评论
 

(c)2023-2023 www.114me.cn All Rights Reserved

渝ICP备2024019187号-1