业界|既能打假也能造假,人工智能让图像和视频伪造更简单
选自The Verge
机器之心编译
Smile Vector 是一个推特机器人,可以生成任何明星照片微笑的动图,如果输入一张人脸图片,它可以通过深度学习神经网络生成它们微笑的表情。虽然这些图片也许并不完美,但它们完全是自动生成的,这是人工智能在图像处理领域的又一进步。也许不久之后,图片、声音和视频造假都将变得容易。想象一下,假如新版本的 Photoshop 可以像用 Word 编辑文字一样轻松编辑图片,你还会相信自己的眼睛吗?
这将是一个技术上的飞跃。
「我非常确定这将是一个技术上的飞跃,」Smile Vector 的开发者,Victoria 大学设计学院讲师 Tom White 说到。「这不仅意味着我们具有修改图像的能力,更意味着它简便易行,适用于所有人。」White 将它的作品比作对现实世界的「挑衅」,意在宣示人工智能的技术能力。「我觉得现在科技圈以外的人还不知道机器学习能够做什么,你可以想象一下如果我们在 Instagram 中加入这样一个滤镜,你只需选择『大笑』或者『微笑』,图片瞬间就处理好了,所有人在自己的手机上都可以这样做。」
Smile Vector 只是新技术的冰山一角,我们很难对现代人工智能多媒体处理技术做出全面的概述,但我们能够找出其中一些有意思的应用。例如:从一张 2D 图片中创建 3D 面部模型;使用人类「模型」实时改变视频中人物的面部表情;改变图片中的光源和阴影;为无声视频自动生成声音;在总统选举直播中让特朗普变成秃头;用视频剪辑「复活」朋友等等。这些事例只是其中的一小部分。
「这一领域正在迅速发展,」Wyoming 大学的计算机科学教授 Jeff Clune 说道。「每个月我都会看到新的产品出现。」Clune 的研究并不包含修改图像,而是直接生成图像。他和他的团队从 2015 年开始通过对象识别训练神经网络。这项研究源自于 2005 年 Quian Quiroga 等人的一项神经学研究,他们确定了当面对某些图像时人类大脑中产生兴奋的神经元,并教导整个网络产生最大化这种刺激的图像。
在2015年,他们生成的图像是这样:
到了2016年,他们的研究有了很大进展:
为了生成这些图片,需要在此类图片的数据库上训练神经网络。一旦它学习了足够的蚂蚁、红脚鹬和火山的图像,它可以根据命令生成自己的版本。当前的两个瓶颈是图像分辨率(这些图片都不大于 256×256),还有搜集足够数量标记过的图片来训练神经网络。Clune 表示:「我们当前遭遇的挑战不在于模型本身,而是缺乏更高分辨率的数据集,需要多长时间才能生成出真实的全高清图像?我们无从得知,不过它应该只需要几年,而不是几十年」
当这些技术完善之后,它们将会很快的流行起来。「风格转换」就是一个很好的例子,这个 APP 应用神经网络把一张图片的风格应用于另外一张图片上。这个方向的一篇重要论文是在 2015 年 9 月份发表的,随后,论文的研究者在 2016 年一月份把他们的研究做成了一个开源的网络应用。6 月,一家俄罗斯初创公司开创性地改善了这些代码,做出了手机 app——Prisma,这个应用让所有人都可以在手机上制作不同艺术风格的照片,然后将制作的照片分享到社交网络中。Prisma 瞬间成为社交网络的宠儿,今年 11 月,Facebook 发布了自己版本的风格转换应用,在 Prisma 基础上增添了一些新功能。不到一年时间,这个技术完成了从前沿研究到商业产品成型的过程,这就是此类工具发展成型的节奏。
Clune 认为人工智能图像生成应用在未来将在创意产业中起到重要作用。家具设计师可以使用它作为一个「灵感源(intuition pump)」,在为神经网络提供椅子的数据集后,就可以要求它自动生成这些椅子的变种,这是一种创新的创作方式。图像生成的其他用途可能会在视频游戏和虚拟现实等领域里,根据用户实时说出的内容生成场景。想要条巨龙?只要下达命令就能生成了。研究人员已经在研究这些前沿交互方式了,在下面的图片中,右侧的图像仅仅只是是基于左边的字幕生成的。
它显然可以用来搞恶作剧。有一个叫 Face2Face 的程序,它将视频中的人物变成了木偶,让你的表情映射到了他们的脸上。研究人员使用特朗普和奥巴马等人的镜头证明了这一点。在 Adobe 发布的新研究中(Project VoCo),用户可以编辑人类语音,该公司表示它可以像 Photoshop 编辑图片一样用于调整视频中的发音和对话。你现在可以创建政治家、名人、演说家的视频片段,并且不论内容如何。然后你可以在任何社交网络的页面上发布你的剪辑,并看看它会如何迅速遍布整个互联网。
Face2Face实时改变视频中人物的口型
这并不意味着,机器学习编辑工具会让我们的社会变得再无真相。毕竟人类造假的历史由来已久,润饰照片的实践最早都是在暗室里进行的,媒体也经常会把假图片误报成真的。从朝鲜的「导弹发射」到本拉登的「尸体」,这些图片在英国一些小报的页面上随处可见。同样,视频也是一样——例如,2015 年美国计划生育协会(Planned Parenthood)丑闻,将隐藏拍摄的镜头经过编辑去支持一些耸人听闻的错误言论。
但我们不能否认的是,数码工具会让越来越多的人都有能力进行伪造。过不了多久,所有人都可以通过人工智能对一张图片或是对视频进行复杂的处理。一旦每个人都能像写 Word 一样快速处理照片,事情一定会变得复杂起来。现在,查验人工智能所做的伪造和处理并不难(模糊处理是一种最常见的方法,低分辨率就会让它「看上去就是假的」),但是研究人员一直在努力改善他们的技术。
如果每个人都能像专业人员一样既快速又简便地修改一张照片,这个世界会发生什么?
现实中伪造的事情越来越多,这对阴谋论者来说绝对是一件愉快的事,但同时也会大大降低人们对新闻业的信心。一旦人们知道目前有伪造的图片在新闻业流通,即使他们看到真图,也会开始怀疑,不管原因是什么。(例如,2012 年报道飓风桑迪的博客图片,经证实,里面有伪造的图片,但也有真实的图片)如果新的软件能够让我们像处理图片一样轻松处理音频、视频内容,这其实又削弱了媒体「真实可信」证据的另一大支柱。
这一领域的人工智能研究者们已经对即将到来的媒体环境有了直接的体验。Clune 说:「我目前正处在让我头晕目眩的现实世界当中。」「人们发给我一些真实的图片,但我还是不禁会想它们看起来像不像是假的。当他们给我发送一些伪造的图片的时候,我又在假设这些图片是真的,因为的确质量很高。渐渐地,我开始在想,我们是不会知道真和假之间的区别的。这取决于人们自我尝试和自我学习的能力。」
原文链接:http://www.theverge.com/2016/12/20/14022958/ai-image-manipulation-creation-fakes-audio-video