用户的敏感数据可以轻松被恢复,怎么破?
点击上方关注,All in AI中国
最近,在用户敏感数据上使用人工智能引发了许多担忧。差分隐私和联邦学习是谷歌和苹果等公司目前针对这一问题提出的解决方案。
https://ai.googleblog.com/2017/04/federated-learn
介绍
敏感的资料和数据每天会以不同形式收集(例如:医院病历、手机活动记录等)。一旦数据被收集,然后经过预处理成为完全匿名的,并最终提供给公司和研究社区进行分析。
使数据集匿名可以防止任何人仅使用数据集就完全能够将数据反向工程到其原始形式。
虽然,数据集中包含的数据也可以在web上以任何其他形式提供。然后,通过使用数理统计方法比较相同数据的不同来源,可以更容易地对原始数据进行逆向工程。这样,提供数据的人的隐私就会受到损害。
举个例子,Netflix在2007年发布了一个数据集,其中包含了他们在公开竞争中的用户评分。比赛前,数据集已完全匿名,因此不包括任何私人信息。然而,研究人员先后对该数据集的隐私安全性进行了测试,成功地恢复了高达99%的已删除的个人信息。通过将Netflix提供的数据与IMDB上公开的其他信息进行比较,可以实现这一结果。
利用差分隐私和联邦学习等技术可以大大降低这种风险。
差分隐私
差分隐私使我们能够量化数据库的隐私级别。这可以帮助我们尝试不同的方法,以确定哪种方法可以更好的保护用户的隐私。通过了解我们的数据隐私级别,我们可以量化某人可能从数据集中泄露敏感信息的可能性,以及最多可以泄露多少信息。
Cynthia Dwork对差分隐私的定义是:
差分私隐是指资料持有人或馆长向资料当事人作出的承诺,承诺内容如下:
"你不会因允许你的数据用于任何研究或分析而受到不利的,或者说是其他方面的影响,无论是否有其他研究、数据集或信息源可用"。
差分隐私用于保护个人隐私的一种技术是在数据中添加噪声。两种主要的差分隐私方法是局部差分隐私和全局差分隐私。
- 局部差分隐私=噪声被添加到数据集中的每个单独的数据点(数据集管理员一旦形成数据集,或者在将数据提供给管理员之前,由数据集管理员自己添加)。
- 全局差分隐私=在数据集查询的输出中添加了保护个人隐私所需的噪声。
一般来说,与局部差分隐私相比,全局差分隐私在保持相同隐私水平的情况下,可以得到更准确的结果。另一方面,当使用全局差分隐私时,提供数据的人需要信任数据集管理员添加必要的噪声来保护他们的隐私。
在实现差分隐私时,通常可以使用两种类型的噪声:高斯噪声和拉普拉斯噪声(图1)。
图1:高斯分布和拉普拉斯分布。
为了确定需要向数据集添加的噪声量,以确保数据集的隐私安全,使用了差分隐私的正式定义(图2)。
图2:差分隐私定义
在图2中,一个代表一个随机算法,将数据集作为输入,数据集D1和D2相差只有一个元素和ε(ɛ)是一个正实数。 Epsilon作为一个参数来确定所需的噪声量。
联邦学习
利用大量数据的机器学习模型传统上是使用在线服务器进行训练的。谷歌和苹果等公司过去常常将移动设备用户的数据记录活动,存储在云服务中,从而创建一个集中式的机器学习模型,提高移动服务的性能。
如今,这些大公司正在转向使用一种被称为联合学习的分散模型方法。使用联邦学习,机器学习模型在数据源上进行训练,然后将其输出移动到云上进行进一步分析。这意味着像谷歌和苹果这样的公司不再需要访问他们用户的数据来改善他们的服务,而是可以使用本地训练的机器学习模型的输出(而不会破坏用户的隐私)。
此外,由于这些模型是在本地训练的,因此可以为最终用户提供更加个性化的体验(图3)。
联邦学习的定义是:
联邦学习=在我们无法访问的数据上训练机器学习模型的技术。我们用来训练模型的数据集分布在大量的资源中。
图3:活动中的联邦学习
像谷歌这样的公司规定,这些类型的本地机器学习训练只在终端设备不被用户使用、正在充电并有wifi连接的情况下进行。这样,设备的整体性能就不会受到影响。
在智能手机设备上使用联邦学习的一些例子可以是:使用Android上的Gboard、Gmail和谷歌搜索引擎提供个性化的单词建议。