「深度学习不是犯罪」欧盟祭出最严数据保护法：专家解读 GDPR

旭峰

2018-05-25

关注关注

新智元报道

作者：肖琴、克雷格

【新智元导读】深度学习会是犯罪行为吗？欧洲“史上最严”的数据保护条例今天实施，其中提及了对算法的可解释性。华盛顿大学计算机科学教授Pedro Domingos曾发推特说，条例会让深度学习成为违法行为。但实际上并非如此。

「深度学习不是犯罪」欧盟祭出最严数据保护法：专家解读 GDPR

今天，欧洲“史上最严”的数据保护条例——通用数据保护条例（The EU General Data Protection Regulation，GDPR）生效。

GDPR有多严格？对于违规收集个人信息的互联网公司，最高可罚款2000万欧元或全球营业额的4%。

这个数字看上去没什么概念。举个例子，微软2017年收入 900亿美元，4％就是36亿美元；亚马逊2017年的收入为1779亿美元，若罚款4％就是70亿美元。

对大公司罚再多的款看上去也跟开发者无关，毕竟又罚不到开发者身上。

那就错了。

在今年初，华盛顿大学人工智能专家Pedro Domingos教授的发推特：GDPR要求算法有可解释性，这让深度学习成了违法行为！

「深度学习不是犯罪」欧盟祭出最严数据保护法：专家解读 GDPR

当时这条推特就引起了恐慌，引发各种律师出来进行解读。

最新的消息是，在ICAN咨询公司的GDPR交付经理（Delivery Manager）说，GDPR不会停止机器学习和深度学习，也不会成为它们的危险。

看上去松了口气，但对AI产业界来讲，GDPR带来的影响才刚刚开始。

深度学习的“大敌”：你给我解释解释可解释

Domingos教授认为“深度学习违法”，是因为GDPR中的第13至15条规定，公司有义务提供对个人算法决策的详细解释，或关于算法如何作出决定的一般信息——这是争论的焦点。

很多人对Domingos教授的话感到担忧：GDPR是否真的需要机器学习算法的解释？

首先应该区分一下“解释”的范围：

全局解释（Global explanation）：机器学习的算法是如何工作的（这对于深度学习等复杂方法来说可能非常困难）。
局部解释（Local explanation）：影响特定人员的某个特定决策的因素有哪些（比较容易）。已经有一些算法，如LIME：Local Interpretable Model-Agnostic Explanations，它可以解释任何机器学习分类器的预测。
例如，如果一个人的抵押贷款被拒，TA是否应该知道是哪些因素促成了这一决定？一方面，如果你被算法拒绝，你想知道为什么，并有机会上诉。另一方面，足够的解释可能会使决策边界被反向设计，并允许潜在的邪恶行为者对系统进行博弈。在很多情况下这是非常不可取的（例如安全应用）。

欧盟律师、牛津大学人工智能和机器人技术法律与伦理研究员Sandra Wachter博士认为，GDPR要求数据控制器实施适当的措施来保障数据主体的权利自由和合法权益。而第15条意味着一种更普遍的监督形式，而不是对某一特定决定作出解释的权利。

说起来有点绕，直白点的意思是：

在GDPR中，解释的权利不具有法律约束力，但可以自愿提供。

Sandra Wachter博士还认为，GDPR很可能只向个人提供关于自动决策和系统功能存在的信息，但是没有关于决策基本原理的解释。事实上，在整个GDPR中，“解释权”只在第71章的规定中提到过一次，而这一规定缺乏建立独立权利的法律权力。

数据研究公司MediaGamma联合创始人、CEO Rael Cline认为，深度学习仅仅是一种使用大量数据（标记或未标记）的算法。由于其有效性与数据的数量和质量以及这些数据集的危害程度有关，在最坏的情况下，GDPR可能影响算法的准确性并限制其商业价值。

“使用未经消费者同意的数据在GDPR下是非法的，但深度学习的方法不违法。值得注意的是，在许多用例中，GDPR的影响非常小（例如，工厂的数据是由机器生成的，而不是终端用户的）。”

ICAN咨询公司GDPR交付经理Can Huzmeli也说，GDPR不会成为机器学习和深度学习的危险。

“GDPR关注的是作为系统输入的数据，以及作为处理结果共享数据的人。”Huzmeli说。“只要你的数据处理方式在隐私方面是安全的，你就可以使用任何算法。”

在这种情况下，只要你有输入的合法依据，也不非法共享算法的输出，那么就是安全的。

Huzmeli也说，这确实给机器学习系统带来了额外的负担，因为它们通常使用爬虫来收集数据。但是，他们已经使用过滤器来清理数据。因此，GDPR中添加的唯一额外一项规定是在数据集结束之前过滤敏感数据。

“GDPR正将必要的意识引入到生态系统中，并通过提醒公司在隐私领域承担多大的责任来引导它们。”

Sandra Wachter博士也认为，基于人工智能的系统往往是不透明的“黑盒子”，难以仔细检查。随着我们越来越多的经济、社会和公民交互——从信贷市场和健康保险应用到招聘和刑事司法系统——都是通过算法进行的，人们对技术背后缺乏透明度的担忧越来越多，对如何做出决定的理解很少。

“我们需要适当的保护措施来确保正在做出的关于我们的决定实际上是公正和准确的。”

应对“史上最严”条例，企业应关注9大要点

之所以被称为“史上最严”数据保护条例，因为GDPR规定，对违规收集个人信息、没有保障数据安全的互联网公司，最高可罚款2000万欧元或全球营业额的4％（以较高者为准）。

举例来说，亚马逊2017年的收入为1779亿美元，如果亚马逊非法收集用户数据，那么罚款2000万欧元就太少了，应该是年收入的4％，即70亿美元。百度2017年的利润是28.1亿美元，对亚马逊的罚款相当于是2.5个百度。

罚款只是极端情况，GDPR对AI公司的影响远比罚款复杂的多，总结下来有以下九大影响：

1. 要求公司手工审查重要的算法决策增加了AI的整体成本。

在GDPR中，最直接针对AI使用的是第22条，即要求公司必须让人类审查某些算法的决策。这一限制大大增加了人工成本，阻碍AI的使用——开发AI的一个主要动机就是自动化，如果由人类来完成的话将会更慢、更昂贵、更难以完成。

2. 知情权可能导致降低AI的准确性。

GDPR的第13至15条规定，公司有义务提供对个人算法决策的详细解释，或关于算法如何作出决定的一般信息。前者可能破坏算法的准确性，甚至适得其反，导致不公平的决策。因为在算法决策中准确性和透明度之间存在权衡。

GDPR规定，数据控制者必须以清楚、简单、明了的方式向个人说明其个人数据是如何被收集处理的。可以想见的是，当前企业普遍应用的隐私政策必须进行大幅改革，才能满足合规要求。如果涉及自动化的数据处理，包括数据画像活动，则需要提供基本的算法逻辑以及针对个人的运算结果。

3. 被遗忘权可能会破坏AI系统。

第17（1）条中的“被遗忘权”（right to erasure）也可能损害AI。所有使用无监督机器学习的AI系统都被要求“记住”它们用来自我训练的所有数据，以维持从那些数据中得到的规则。但是，清楚这些数据可能导致AI的准确率降低，甚至完全失效。

4. 禁止重新利用数据将限制AI的创新。

GDPR第6条规定，除了首次收集数据之外的任何其他目的都禁止使用数据，因此企业难以利用数据进行创新。

5. 模糊的规则可能阻止公司使用去识别数据（de-identified data）。

虽然GDPR允许使用去识别的数据，但缺乏明确的去识别标准，这可能削弱公司对数据进行去识别的动力。

6. GDPR的复杂性会提高使用AI的成本。

GDPR是一项非常复杂的法规，可能难以遵循。开发或使用AI的公司需要有专门的人员和技术来确保它们符合GDPR，这将提高使用AI的成本。

7. GDPR增加了使用AI的企业面临的监管风险。

8. 数据本地化的要求提高了AI成本。

GDPR第5条概述了与个人数据处理相关的原则，对欧盟以外的个人数据流动有严格的控制，例如要求企业必须使用欧盟国家的数据中心。这减少了云服务提供商之间的竞争，但增加了数据处理的成本。

9. “数据可携权”将加剧服务提供商的竞争。

“个人数据可携权”（第20条）是指用户可以无障碍地将其个人数据从一个信息服务提供者处转移至另一个信息服务提供者。例如，Facebook的用户可以将其账号中的照片以及其他资料转移至其他社交网络服务提供商。该权利不仅适用于社交网络服务，还包括云计算、网络服务、手机应用等自动数据处理系统。

AI公司是怎么应对的？

GDPR对AI产业界的影响重大，受该条例管辖的不仅仅是传统意义上的互联网公司或AI公司，哪怕其从事的业务并非狭隘上的互联网服务，只要涉及了用户数据，也在GDPR管辖范围之内。

以下是将适用于欧洲用户的一些关键的GDPR要求:

公司必须建立允许用户查看他们存储的个人信息的工具。
公司必须允许用户删除、纠正或移动他们的数据。
公司必须在72小时内将数据泄露通知有关部门。
公司必须获得肯定同意或证明他们有一个收集用户数据的“合法依据”。

在GDPR制定过程中，一些公司就已经开始准备应对措施。

微软

微软的副首席法律顾问Julie Brill在一篇官方博客中透露，微软已经为GDPR项目投入了1600多名工程师，他们将为全球客户提供正在为欧洲建设的符合GDPR的工具，微软的客户可以查看、删除和移动他们的个人数据。

亚马逊

3月底，亚马逊宣布AWS已经为GDPR做好准备。该公司解释说：“AWS服务使您能够以您需要的方式来实施您自己的安全措施，以遵守GDPR。”

Facebook

扎克伯格5月22日在欧洲议会听证会中表示，Facebook已经为GDPR做好准备，并且“很大一部分”用户已经被提示更新隐私设置。奇怪的是，Facebook在这个关头在欧洲启用了人脸识别认证。

Facebook还将美国、加拿大和欧盟国之外的约15亿用户的注册地从都柏林移至美国。据路透社报道，这一举动意味着非洲、亚洲、澳大利亚和拉丁美洲的用户不受GDPR的影响。Facebook表示，它正在向世界各地的所有人提供隐私工具，但具体的隐私政策在各个国家不一样。

Apple

早在2011年发布的iOS 5，苹果就在其设备之间发送的iMessage中添加了端到端加密。与Facebook和谷歌不同，苹果公司不依赖于广告赚钱。

对于GDPR，苹果已更新其隐私条款并推出了新的用户页面。欧洲的用户现在可以下载苹果公司对其收集的所有数据。这些数据由照片、Apple Pay，联系人等服务收集。用户下载的个人数据以压缩文件夹的形式出现，其中包含可重复使用的CSV和JSON文件。

苹果还加入了暂时停用帐户的功能。停用后，Apple服务将停止，苹果公司还将停止为其机器学习和AI系统使用客户数据。这些功能将在未来几个月内推广到全球的所有帐户。

Google

谷歌CEO Sundar Pichai不久前表示：“我们的大部分广告业务都来自搜索，我们依赖非常有限的信息——基本上就是关键词——来显示相关广告或产品。” 他补充说，他认为GDPR对于互联网用户来说基本上是件好事。

Twitter

Twitter在GDPR生效之前更新了服务条款和隐私政策。Twitter在官方博客中解释道：“在该日或该日之后使用我们的服务，您将同意这些修订。”

但Twitter没有清楚地说明更新的内容，只说更新“关注我们为您提供的有关您的个人数据的控制措施，以及Twitter如何公开分享您的数据”。由于GDPR，Twitter还关闭了Roku，Android TV和Xbox版的Twitter应用。

Rael Cline创办的MediaGamma公司使用人工智能做出实时决策，他们的产品之一是帮助广告商根据用户的兴趣为相关的用户投放相关广告。“我们必须做出一些改变，以确保能遵守GDPR，做法包括限制我们持有授权的数据的时间，以及确保我们可以在客户要求的情况下删除特定用户的所有记录。”Rael Cline说。

同时，Rael Cline也认为，GDPR给人们提供了一个利用人工智能填补空白的机会。例如，在在线广告行业中，随着同意（企业新隐私条款）的用户数量的减少，我们可以应用人工智能来对这些已同意的用户的行为进行建模，然后根据共享属性找到相似的用户，这被称为“lookalike”。

参考资料：

1.https://blogs.microsoft.com/on-the-issues/2018/05/21/microsofts-commitment-to-gdpr-privacy-and-putting-customers-in-control-of-their-own-data/

2.https://www.geekwire.com/2018/race-gdpr-finish-line-us-tech-companies-preparing-europes-stringent-new-privacy-law/

3.http://www.softwaretestingnews.co.uk/gdpr-isnt-dangerous-for-machine-learning-says-gdpr-delivery-manager/

4.https://www.kdnuggets.com/2018/03/gdpr-machine-learning-illegal.html

5.http://www.xinhuanet.com/2018-05/24/c_1122881389.htm

6.https://www.pcmag.com/commentary/361258/how-gdpr-will-impact-the-ai-industry

【加入社群】

新智元 AI 技术 + 产业社群招募中，欢迎对 AI 技术 + 产业落地感兴趣的同学，加小助手微信号: aiera2015_3 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名 - 公司 - 职位；专业群审核较严，敬请谅解）。

机器学习

安科网

「深度学习不是犯罪」欧盟祭出最严数据保护法：专家解读 GDPR

旭峰

深度学习的“大敌”：你给我解释解释可解释

应对“史上最严”条例，企业应关注9大要点

AI公司是怎么应对的？

旭峰

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

旭峰