担心被AI换脸技术祸害?别怕!Deepfake打假队正在赶来
Deepfake 自问世以来,一路向着人性阴暗面奔去。
B 站用户让蔡徐坤顶着六小龄童的面孔在偶像练习生C位出道。民间技术流已经能对着 AI 换脸教程玩的不亦乐乎。但每个人也更容易成为受害者:伪造绑架视频勒索诈骗,不雅视频毁坏名誉,或者恐怖视频制造混乱,都因为 Deepfake 的开源技术变得空前容易。
让一众名人换上布什的面部动作图 TED 在 PS 摧毁了公众对图片的信任后,Deepfake 正在摧毁公众对视频的信任。没有人想在互联网上看到自己的面孔说着自己没说过的话。许多针对个人的伤害,也因为影响不够巨大而投诉无门。
美国正在形成一支 Deepfake 打假队伍,不仅是高校实验室、研究中心在寻找 Deepfake 的破绽,一股创业潮流也正在兴起。
但这是一场造假 AI 与鉴假 AI 之间“你有张良计,我有过墙梯”的竞赛。每一篇检测 Deepfake 的论文,仿佛都能提示造假技术修补自身漏洞,从而更上一层楼。
关上 Deepfake 的潘多拉魔盒,他们能做到吗?
用打假 Deepfake 创业
Shiva Kintali 离开担任讲师 4 年的普林斯顿计算机系,正在硅谷创业鉴别伪造视频。他告诉硅星人,他的合作对象有警察、记者、保险公司等,通过机器学习寻找伪造视频的破绽,用区块链记录信息等技术来辅助鉴别。
Kintali 的网站已经可以上传图像、音频、视频,来分析检测是否有修改痕迹。他同时在开发一个手机相机应用,用人工智能为图像添加时间、地点水印,并将图片原始信息印在区块链上。一旦传播图像的信息与原始图片不符,就容易判断真伪。
这些产品希望帮助记者、媒体公司、政治竞选团体、执法机构(例如 FBI、NSA),保险公司(面临虚假事故照片的保险索赔问题)和大公司(例如 Facebook、Twitter、Redditt、PornHub),在其平台上阻止虚假的视频、音频、照片传播。
由于 Deepfake 降低了视频造假的门槛。面对真伪难辨的影像资料,记者不知道能否发布,保险公司不知是应该理赔还是报警诈骗,警察收集证据后,也需要专业工具去鉴定图片和视频的真伪。
目前流传的假视频大多是“浅度造假”,但因为数量多,造成了无数困扰。斯坦福的研究人员向鉴别公司了解到困扰他们的三大问题:数量太多,可用鉴别时间太短,缺乏标准化的工具。
因此,研究者们在寻找能够大规模应用的打假方法。Facebook、Twitter 等社交网络上爆炸式传播的图片和影像,给辟谣留下的时间窗口越来越短。普通大众也不可能雇佣专业人士进行鉴别。
抢先商用化的图像验证平台 Truepic 已经上线了一款智能相机应用。用户拍下的图像将上传至服务器,在创建时对照片和视频进行身份验证,获得唯一编码。相机应用捕获设备的传感器数据,在传输之前加密照片或视频,运行 20 多个图像取证测试,并在几秒钟内,将图像的加密签名印在公共区块链上,使得信息不可被篡改。
这是一种“自证清白”的方式,适用于电子商务平台和公民记者类用户。如果用户将图片发送给接收者,Truepic 允许收件人验证图像的原点和元数据的完整性。任何二次传播的多媒体材料,都可以与区块链上的原始信息对比,辨别真假。
在 Deepfake 的威胁下,鉴定图片、视频的真实性,都成了相机应用的卖点。但这类以营利为目的的产品又引起了用户新的隐私担忧。毕竟,谁能确保 Truepic 不作恶呢?
算法打算法
位于硅谷的 SRI International AI 中心则“以毒攻毒”,用伪造的视频训练算法,让算法能够更好识别出伪造痕迹。在人们上传视频到社交网站的时候,平台需要对视频重新编码。这是一个检测虚假视频的好时机。
但随着 Deepfake 的漏洞日渐优化,用算法打算法的难度也日益加大。
打假 AI 原本就是训练造假 AI 的一部分,二者刚好在生成对抗性网络的两端。一个生成器,一个鉴别器,道高一尺,魔高一丈。
由于 Deepfake 的技术在于篡改数据,那么鉴别方则在寻找一切篡改数据的痕迹。一种方法是基于像素的视频检测,视频其实是成千上万帧图片连放,细致到检测每个像素的改变痕迹,是一件颇为浩大工程。
此外,伪造的面部表情目前仍有缺陷。伪造的脸部表情往往与其他部分存在不一致,计算机算法可以检测图片或视频中的这种不一致。
UC Berkeley 研究者比较真假人物的面部差异 图 UC Berkeley
举例而言,初代 Deepfake 视频中的人物,眨眼的方式都有点奇怪。
纽约州立大学奥尔巴尼分校计算机科学副教授 Siwei Lyu 曾撰文表示,成年人的眨眼间隔为 2 秒到 10 秒,一次眨眼需要十分之一到十分之四秒。这是正常视频人物应有的眨眼频率,但很多 Deepfake 视频的人物没能做到这一点。
彼时由于缺乏闭眼图像数据,算法的训练并不完美,视频人物面孔总有一种“哪里不对”的不和谐感。
然而,通过闭眼的面部图像、或使用视频序列进行训练,可以改善眨眼间隔。虚假视频的质量总会提高,而研究人员需要继续寻找检测它们漏洞的方法。
南加大的研究者 Wael Abd-Almageed 表示,社交网络可以使用算法来大规模识别 Deepfake。为了实现这一过程的自动化,研究人员首先建立了一个神经网络,“学习”人类在说话时如何移动的重要特征。然后,研究人员使用这些参数将伪造视频的堆叠帧输入 AI 模型,以检测随时间的不一致性。