清华AI TIME走进北邮:“机器学习与隐私保护”
来源:AI TIME 论道
本文约5200字,建议阅读10+分钟。
本文介绍了“智能与隐私”的相关问题,围坐、论道“机器学习与隐私保护”。
水调歌头·AI几时有
——张忠宝
AI几时有,算法大无边。不知智慧未来,爆发在何年。我欲机器学习,又恐信息融合,保护着实难。数据万万千,何处无风险?
搞广度,用深度,加上GAN。今日论道,如何便利又安全?既要智能服务,又要隐私保护,此事古难全。但愿此会后,二者可得兼。
智能时代与隐私保护,是左右互搏还是相辅相成
当今,在大数据、人工智能的时代下,用户在获得智能服务带来便利的同时,也面临着极大的隐私泄露风险。用户的信息越全面,画像越完整,用户的隐私所受到的威胁就越大。用户在各个应用领域留下的印记,融合在一起可能就能精准定位一个人的隐私信息。用户作为数据的产生者,无法获知自己的数据被作何用途——被商用、被贩卖、被窃取等。
那么,你更看重机器学习带来的便利还是隐私数据带来的威胁呢?
2019年11月29日,初雪的北京,AI Time走进北京邮电大学,本次活动由北京邮电大学张忠宝副教授和AI Time的何芸老师主持,特别邀请到了清华大学计算机系唐杰教授,中科院计算所研究员沈华伟,北京邮电大学程祥副教授和中国计算机学会中文信息技术专委委员李磊博士。来自学术界与工业界的四位大咖就大家广泛关注的“智能与隐私”的相关问题,围坐、论道“机器学习与隐私保护”!
主持人 张忠宝 副教授
“AI TIME希望给大家营造一个非常轻松的环境,共同探讨一些科学本质的问题。”正如唐杰教授所讲。
一、机器学习的能与不能
人工智能的发展如火如荼,作为其中最重要的方法之一,机器学习日益受到关注。如果把人工智能比喻成一个小孩的大脑,机器学习则是指教这个小孩如何识字、认图和走路的过程。机器学习有着各种各类、丰富多彩的应用,和衣食住行密切相关,为用户提供更好的服务。四位讲者首先简短地对机器学习现状进行了解读。
李 磊 博士
李磊认为,机器学习应用十分广泛,在其所研究的内容理解和内容生成的方向,机器学习已经发挥巨大的作用。随着Bert、XLnet等预训练模型的发展,机器学习在工业界已经不需要很高的门槛,学术界所研究出的模型可以很快应用到工业界的问题中。
唐 杰 教授
唐杰回顾了机器学习的发展历程,指出近来这一次人工智能浪潮起源自于机器学习算法在实际系统的大量应用,其主要的特点是平民化、平台化和高精度化。原来只能在学术界,或者大企业才能做的东西,现在很容易便能上手。
沈华伟 研究员
沈华伟表述了自己对于人工智能边界的观点。他认为机器学习是人工智能的一部分,其边界是图灵机模型下的计算智能。如果某个问题不可计算或计算复杂性高,也就无法或难以通过机器学习方式来解决。
程 祥 副教授
程祥则认为,机器学习渗透到生活的方方面面,但是不能解决涉及到创造力的问题(例如,如何写论文等)
多源异构环境下如何进行有效学习
我们常听到我们处于一个大数据时代。事实上,大数据并不是指所有数据都很大,更多的情况是,我们拥有许多不同来源的(小)数据,它们之间相互有或多或少地联系。如果能够将这些不同的数据源整合在一起,那么我们将挖掘出更多有价值的信息。
针对这个问题,唐杰认为多源异构在工业界很有必要,但从理论研究层面上看,它更像一个工程问题。对于多源异构,如何从科学的角度上给出一个准确、形式化的定义非常重要。当然这方面在国际上相关的研究还是非常多的。
李磊赞同唐杰对于多源的观点,但是对于异构存在不同的见解。他认为异构未来有发展的必要和空间。把异构、多模态的信息放在一起,对于数据挖掘非常有帮助。
沈华伟同样赞成多源异构的提法,现在面临的现实是需求在前,学术在后。如果对多源异构有很强的需求,学术肯定跟上。
程祥则认为多源异构均存在研究的必要性,并提出多源首先面对的问题是研究数据集成,举出了谷歌的联邦学习的概念解释了多源机器学习的作用。同时,异构数据能够存在一个信息的互补,一旦信息互补,信息更加全面,在同一个语义空间下是有用的。还有一种可能,一种数据样本比较少,另一种类型的数据样本比较多,也有必要把它做异构上的语义统一。
嘉宾思辨不断……
机器学习的未来方向
对于机器学习的未来,几位嘉宾进行了不同的展望:
唐杰认为,推理会成为未来的AI热潮。人工智能发展到目前可以简单归纳为三个阶段:第一个阶段是让计算机能够描述和求解问题,本质上是让计算机能够描述人类的问题,第二个阶段是专家系统,包括构建知识库和基于机器学习的问题分类和求解,第三个阶段是深度学习快速发展解决的识别和感知问题。未来人工智能发展可能的两个重要方向是让机器实现推理和自学习。推理会引发下一波研究热潮。
沈华伟与唐杰一致认为Bert等预训练模型的大量使用是机器学习的另一个趋势。预训练可以在超大规模的数据上预先无监督地对模型进行训练,后续针对特定任务,可以只需要在预训练模型上通过特定任务的数据简单的finetune就能够构建面向该任务学习模型。预训练在促进工业界蓬勃发展的同时,也对学术界产生了较大的冲击,因为一般的学术实验室很难有足够的计算能力和存储能力做出超大规模的预训练模型。
关于知识图谱,其本质是概念和概念关系,以及概念和关系的实例。唐杰提到预训练(pre-train)给了我们一个新的思路,也许在pre-train之后,可以通过数据的语义表示和语义推理实现知识图谱的构建和推理,这从另一观点来说,一个问题是未来是否还需要知识图谱?当然这只是一个构想。
对于知识图谱未来的发展,沈华伟研究员表示知识图谱发展的方向是知识自动化,当发展到知识自动化的阶段后,知识图谱可能就会以另一种形式存在,认为将来的方向是认知以及人与机器的对抗与互相学习。对于这个方向,程祥认为知识图谱具有可解释性,而可解释的机器学习是最近的一个发展趋势,但是机器是否需要这种可解释性呢?目前为止还没有明确答案。学术界应该更关注于一些基础研究,解决一些根本性问题,而不是在应用层面上和工业界竞争。
然而,李磊却认为pre-train并不是未来的主要发展方向,并从AI要解决的最基本的问题方面进行了解释。AI需要在某种框架上计算、推理、学习、迁移,甚至认知。上述框架存在两种。第一种是概率图框架。它认为世界上的所有东西都有不确定性,都可以用概率分布去表达。在该框架上,所有的问题都可以用概率推理的方法予以解决。第二种框架是深度学习的框架。它的核心思想在于所有的知识都应该表示成一个向量,而所有的向量组成一个向量空间。在该空间可以进行矩阵运算,通过非线性的方法推理得出结果。上述过程是一个黑盒,并不要求做到可解释。
回到pre-train上来看,pre-train的价值在于将一个模型映射到向量空间中后,在这个空间上面得到的信息可以很容易地应用到同一类的几乎所有的问题上。但是如果说它就是未来的方向,该观点未免过于武断,可能也不是人们追求的最终智能的方式。
针对AI的未来发展方向,李磊提出了自己的两个观点。第一个方向是逻辑表示和深度学习的结合,历史上就有概率编程的例子,将概率图和逻辑表示相结合来共享两者的优点。第二个方向是将概率图模型和深度学习模型相结合,既能在实际的问题上取得较好的效果,又能够通过概率的依赖关系去解释其中推演的过程。
针对工业界应用机器学习瓶颈的问题,李磊认为工业界的机器学习最重要的是性能和准确度,同时还要考虑经济成本。目前的瓶颈在于:(1)有些明确定义的任务在应用到实际工业产品中会出现很多问题;(2)在计算性能方面,用户往往无法接受较高的时延;(3)能耗的问题。工业界希望任务做得准确的同时尽量降低耗能,也是一个瓶颈的问题。
二、隐私保护
当生活中的多源数据交融在一起的时候,用户的隐私暴露就会更多。用户的信息越全面,隐私受到威胁越大。这个时候怎么办?
智能时代,你的隐私如何得到保护?
唐杰提到在技术发展的初期阶段,可能可以放松对隐私保护的要求,加大力度推进AI。近年来,随着技术的快速发展,隐私保护日益受到关注。对个人隐私保护至关重要。但是目前大家的关注度还不够。在隐私保护、数据共享方面,企业方面需要做到以下两点。第一,坚决不要做恶;第二,数据不能随意交换。有些场景下,如果需要做某种数据分享,联邦学习或许是一个解决之道,这也是未来机器学习和人工智能发展的一个可能趋势。
针对这个话题,沈华伟总结了三点:一是隐私保护需要一个过程;二是隐私保护的尺度需要技术和规则的磨合,不是一成不变;三是隐私保护一定程度上依赖于AI技术,AI技术发展到一定程度,会以更好的方式为大家提供服务,不觉得你的隐私被使用了。AI和隐私保护技术之间需要一个平衡,法律和技术都可以使这个平衡过程逐渐向一个好的去向发展。
从工业界角度讲,李磊则认为,对于负责任的公司来讲,用户隐私永远是第一重要的,可以通过法律法规,还有技术来保护。至于在数据层面使用什么样的技术进行保护,随着机器学习技术的不断更新,隐私保护技术也应该不断更新。
程祥则认为从数据源头上保护隐私之后,深度学习、机器学习还需不需要隐私保护?从源头来讲,从数据信息的角度,对数据信息加了隐私保护,看上去就不再需要机器学习和隐私保护了。还有一些场景,例如银行或者公安机关、医院,如果把所学模型的参数发布出去,可以反推出样本当中的敏感信息。如果是可信的数据收集者,收集的是真实信息,对于发布出来的学习模型或者是统计信息,也需要做一些保护,否则可以通过所学习到的模型或者统计信息,推断出样本当中的敏感信息。
那么,法律优先还是技术优先?
关于数据与隐私,但凡是法律禁止的,我们都不应该去做!
你更看重机器学习带来的便利,还是隐私数据带来的威胁?
现场观众投票结果:
看看四位嘉宾都是什么观点:
李磊认为,对于任何负责任的公司来讲,用户隐私永远是第一重要的,可以通过法律法规,也可以通过技术来保护,用户隐私保护技术需要不断更新;
唐杰支持在当下机器学习更多带来便利;
沈华伟则担心的是人们对于隐私泄露和机器学习便利的边界存在认知偏差,导致很多人不了解或不充分了解隐私泄露的危险程度;
程祥也比较担心隐私可能带来的威胁。
三、互动与思辨
现场观众提问
Q1:隐私的定义到底是什么?
沈华伟说,隐私本身是我们每个人的一种权利,包括知情权和受益权等。如果授权别人使用自己的某些数据,那么这些数据就不叫隐私了。但是知情权对于每人都不同,在数据的获取中每一步都加上知情权,就不存在隐私问题,只是很多人在不知情的情况下,被别人拿去了自己的数据。
现场观众提问
Q2:想获得更好的用户体验,但又不想把数据给你,如何解决?
程祥认为,隐私的定义与场景相关。例如,我们在做一个调查:你有没有某一类遗传病?这项调查非常敏感,需要保护上传信息的隐私。另外一个场景:我出现在某一个视频当中,或者一个照片当中,我不希望我的脸出现。这些场景的隐私保护需求不一样,隐私的定义要结合具体场景。
第二个是个性化的问题。可不可以使用用户的数据,有些人觉得无所谓,有些人却非常在意。隐私保护主要的研究方向是,如何在隐私保护的约束下,做好机器学习和数据挖掘,尽量不影响机器学习的准确率。例如,在发布数据的过程中,需要不能反推出样本中的信息,以保护用户的隐私。该问题可以利用差分隐私技术予以解决。
四、路在何方
机器学习与隐私保护究竟路在何方?经过2个多小时的思辨与互动,得到以下结论:
机器学习应用在工业界中的瓶颈在于性能和能耗,而学术界应该比工业界看的更远。例如对于多源机器学习的形式化/数学定义、概率表示与概率编程、逻辑和深度学习的结合等。
目前处在人工智能的第三阶段,下一波的研究浪潮可能会是推理;Pre-train在文本和图像领域发展迅猛,他可能是一个实现推理的方法;也可能仍然需要超大规模的知识图谱。知识图谱最终也许走向知识自动化,一旦走到这个地步,它可能以另外一种形式存在。
只发展AI,不谈隐私,或者只顾隐私,不发展AI,是两个极端。两者需要磨合才能做到相辅相成,共同发展。隐私保护技术需要全新的发展,传统的方法如:差分隐私、k-anonymity法、基于Dimensionality-reduction方法、联邦学习以及数据加密的方法。这些方法可能都还不足以解决目前的隐私安全隐患问题。因此,需要技术和隐私保护公共政策的共同发展。
在未来阶段,我们期待让机器能够真正具有认知能力,能够自主地解决问题,或者说具备如同科幻电影中那样自主思考的能力。虽然显得十分遥远,但随着科技的爆发,谁能确定现在的科幻是不是未来平淡无奇的技术?在未来,数据融合用于提供更智能化的服务是不可阻挡的趋势,但是不管是在法律层面还有技术层面,我们都应该给予更高的关注度来加强公众的隐私保护意识。
机器学习与隐私保护并不是一场零和博弈。近年来提出的差分隐私和联邦学习技术为在保护数据贡献者部分隐私的条件下实现有效的机器学习提供了可能的思路。人们在未来需要去探索的,正是机器学习与隐私保护中的那个平衡的度,那个能让人们既能享受到机器学习带来的便利,又能确保自己所认为的个人隐私不会被泄露出去的平衡点。如何发现这个度?如何去界定这个度?我们期待未来二者的发展能带给我们答案。
四位嘉宾与现场观众在意犹未尽中结束,留给大家的是对机器学习与隐私保护未来更多的思考!
如梦令·AI TIME
——张忠宝
北邮学发下午,大家一见如故。
尽情畅所言,碰撞火花无数。
顿悟、顿悟,下次AI TIME!
编辑:于腾凯
校对:洪舒越
— 完 —
关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。