蚂蚁金服生物识别技术负责人陈继东:数据驱动人工智能引行业变革
机器之心原创
作者:高静宜
「身份验证是整个互联网金融的基础,要做到从实名到实人,生物识别在这里起到了很重要的作用。」蚂蚁金服生物识别技术负责人、全球核身平台资深专家陈继东告诉机器之心。生物识别技术的成熟、金融支付安全性与使用体验的更高要求,正推动互联网金融公司、商业银行对生物识别认证技术的开发与应用。2015 年 3 月,阿里巴巴集团执行主席马云在德国 CeBIT 展会开幕式上发布并演示了人脸识别支付认证技术,同年年末,蚂蚁金服「刷脸」认证在支付宝和网商银行正式上线。今年 2 月 21 日,蚂蚁金服「刷脸」支付被评为《麻省理工科技评论》(MIT Technology Review)2017 年全球十大突破性技术。
据介绍,目前支付宝总共有 4.5 亿实名用户,其中 1.5 亿使用过刷脸。在陈继东看来,生物识别认证研发中的算法、参数都是通过数据实现优化,这是一个不断迭代的过程,而蚂蚁金服的优势就在于已经拥有大规模数据基础。陈继东从事大数据分析以及人工智能十多年,带领团队研发世界领先的生物识别技术并应用于蚂蚁金服旗下的支付宝和网商银行,他向机器之心详细阐述了蚂蚁金服「刷脸」技术背后的细节以及应用进展。
机器之心:自支付宝引入人脸识别技术之后,在用户登录、实名认证、找回密码、商家审核、支付风险校验等场景下全面应用,甚至有约三分之一的支付宝用户已经体验过这项技术。可否为我们介绍一下「刷脸」支付背后的人脸识别技术?
陈继东:人脸识别是「刷脸」支付技术的基础。传统上意义上,人脸识别技术有三个核心:人脸检测,关键点定位,特征提取和比对。即首先找到图像里人脸的位置,再找鼻子、嘴等关键点,提取出主要特征并对特征进行比对。比对分为 1:1 和 1:N 两种方式,相应地,也存在两种应用场景。在金融领域做身份验证的时候,我们大部分时候是通过设备关联到账户,知道用户预留的人脸图像,然后将活体的脸和预留的脸做一个算法的比对,这是 1:1 的比对。而 1:N 则是从已有的人脸数据库中找到最为相似的人脸,比如在视频监控的场景下,实时定位画面中人群里的脸,把脸和库里面已有的脸做一个 1:N 的搜索,从而找到最相似的结果。虽然这两类比对方式应用场景不同,但技术基础都是相同的。
人脸比对的核心算法主要是经历了几个过程。最早在 20 世纪 60 年代,人们就已经开始研究人脸比对算法了;80 年代后期,随着是计算机技术和光学成像技术的快速发展,不同的算法模型应运而生,最早的就是基于人脸的局部特征的识别模型;之后,更多的是提取全局特征后,再做一些特征的变换;再后来还有基于二维、三维模板做人脸建模的识别模型。
这两年,人脸识别技术取得了突破式的发展,一个是源于深度学习的深入应用,另一个就是海量数据的爆发。随着深度学习的发展,人们可以基于神经网络让机器模拟出人类大脑的学习过程。以前人脸识别的准确率只有 70%、80%,而通过卷积神经网络模型和海量的图片数据进行训练,最近两年已经能够到达 99.6%、甚至 99.7%,已经到了可以商用的程度。从数据的角度来说,很多算法、参数都是通过海量数据训练来实现优化,这是一个不断迭代的过程。我们相比于其他人脸识别厂商的优势正是我们已经拥有大规模数据基础。其实,我个人的背景也不是生物识别,更多的是偏向于大数据、机器学习、人工智能。很早我就觉得数据一定是未来的一个大方向,我做过很多数据领域的应用,比如广告、搜索等,更关注从数据挖掘出的价值。对于金融场景下的生物识别来说,我个人认为数据的应用价值会更大。信用评估、风险管理、身份验证等金融核心都需要数据来解决、并通过算法精准地评估。生物识别在人工智能领域已经比较成熟,它在数据应用方面也是最成功的案例。我对数据驱动人工智能从而引发行业变革是十分看好的。
机器之心:对「刷脸」支付应用的定位是怎样的?
陈继东:《麻省理工科技评论》对于突破技术的定位主要在技术本身之外的应用,强调的是运用科技解决方案,从而带来不同以往的改变,而这正跟我们的定位很相似。我们所希望的是整个人脸识别在金融级进行应用实践,这是应用驱动的、需求驱动的,不是单纯为了做人脸识别这个技术。一个技术能否大规模商用,很多情况下跟它应用的场景是有很大关系的。我们更关注大规模的商业应用,而不是娱乐性的、社交类的,比如说 Facebook 通过人脸识别做照片的分类,或者是预估年龄等应用,我们更偏向于身份验证,这是一个对安全性、识别准确度要求更高的场景。
2016 年云栖大会上,蚂蚁金服展区开张了一家「未来咖啡馆」,客人对着摄像头刷刷脸,就能完成支付。据悉,刷脸支付很快就将落地真实场景。
机器之心:在众多生物识别技术中,为什么选择人脸识别结合眼纹识别的验证方式?
陈继东:生物识别在金融级的应用始于需求。短信、密码体验差,很多人记不住。比如在网络不好的情况下短信不可达,手机上经常被植入木马,受到攻击之后短信校验码很容易截获。可能用户在不同网站上设置相同的密码,使密码容易被撞库得到。在生物识别方面,不光人脸识别,我们一直也在研发声纹,眼纹,然后包括虹膜、掌纹、笔迹甚至是行为的特征,也一直在进行比较。
选择人脸识别是基于用户的非接触式体验,这不同于指纹识别;还有一个原因是人们拍照是比较自然的一个习惯;另外,人脸照片可以拿来与证件上的照片、以及本人进行交叉比对。那么,我们为什么选择和眼纹识别结合呢?因为刷脸的过程中也会扫描识别眼部特征,用户体验是非常自然的。市场上有一些与声纹相结合的,比如要求用户在扫脸的过程中念一串数字,因为不同人的声音具有唯一性,我们自己也在研究这一类算法,也做过相关尝试,这是双因子的校验。不过这个体验跟扫脸结合扫眼这样的双因子比要差点,受声音环境影响较大。未来除了主动验证,还会发展一些被动的验证。比如根据手机上各种传感器数据来验证这个人,从走路的姿势、拿手机的角度等行为来判断是不是本人,这是一种不需要用户参与的身份验证方式,可以给用户一个更加自然的体验,也是未来我们希望去探索的一个方向。
机器之心:能否分享一下如何将人脸识别精度提升到金融交易应用级别的要求?
陈继东:在保证极低误识率的同时拥有很高的准确率,是人脸识别金融级精准度的基础要求。在一般的互联网场景下,99% 的准确率通常假设 0.1% 的误识率(在一千次识别有一次识错)的情况下,识对的概率也能到达 99%。但是在金融的场景下,这个误识率是无法满足的,这意味着有可能别人试了一千次就有一次进入我的账户,盗用我的资金,这个安全等级是远远不够的。我们至少是需要万分之一,甚至十万分之一,到未来是百万分之一的误识率。在这个误识率的情况下,你识对的概率能到多少呢?市面上有很多人脸识别技术公司可能只能到 60%、70%,在这种情况下,我们依然要到 90% 以上。但是这个要求对于人脸识别来说比较困难的,因为人脸本身存在一个较大的类内变化以及较小的类间变化。人脸的角度、光线、表情、年龄、化妆、遮挡、照片质量等方面会使同一个人差异比较大;在机器识别的人数增加的时候,不同的人出现长得比较像的概率也会增加,差异反而变小,这是人脸识别一个最大的难点。那么我们如何解决这个问题呢?
有两种方式,一种是积累足够的数据,这就是大数据的优势。比如以前我们的算法对于眼镜的识别,特别是黑眼镜框有很大几率的识别不准确。但是当我们的数据集里累积到很多不同的镜框,就能学习出到底什么样的镜框有什么样的影响,以及他们之间细微的差异,甚至我们后来还可以模拟出各种各样的镜框,也能达到在较低误识率的情况下依然能保持较高的准确率。
另外一方面,在金融场景下,我们不能完全依靠人脸识别这个单一因子来做验证。生物识别未来肯定会被广泛应用,但不是单独生物识别本身,一定是一个多因子的综合验证。很多时候,单一的算法虽然可以看出细微的差异,但是还是有一定的漏检率、识错率的。那么我们可能需要增加一个因子,这样就可以用来分辨双胞胎这类特殊情况。比如我们研发、独创的眼纹识别技术。眼纹识别,又称为眼静脉识别,让普通手机用户无需额外硬件,只需普通智能手机摄像头并在可见光环境下采集用户眼白上的血管纹理特征,采用针对眼部区域专门研发的活体检测专利技术,从而抵抗人脸照片和视频的攻击。而且,当用户的眼纹模板积累足够的时候,通过眼纹比对技术还能达到接近虹膜级别的准确率和亚秒级快速识别速度,具备更高的安全性和用户体验。
机器之心:能否为我们介绍一下自蚂蚁金服「刷脸」技术推出以来,蚂蚁金服的团队对这项技术所做出的完善以及更新过程?
陈继东:实验室算法与真实大规模应用存在巨大的鸿沟。研究界有一个 LFW 公共数据集来检测算法,算是目前数据集里面比较贴近于真实的数据集,但它还是一个偏实验室的比对环境,更多用于理论研究界做算法的提升和比较。在实验室环境下,机器进行人脸识别的准确率已经超过肉眼,但在真实应用中还受到很多其他方面的影响,所以如果只看实验室的数据,到真实应用的时候会发现准确率远远没有那么高。在商用的情况下,我们不是特别看重在 LFW 实验数据集上的比对精度,因为我们更希望看见在真实数据集上面做的测试得到的准确率。在真实的应用场景下,数据差异会更大,照片是由成千上百,甚至上亿的用户在不同条件下拍照得来的,如室内室外、光线强弱、白天晚上、不同皮肤、化妆情况,甚至用户的各种姿势和表情。在这些真实情况下,怎么来保证算法的准确率,才是我们更要考虑的。
在我们拿到高质量的人脸图像做比对的时候,比对率是比较高的,可以达到 99% 以上。但是我们更关注的是整个系统全链路的通过率。所谓全链路的通过率,指的是当用户第一次进入刷脸界面,到顺利完成刷脸并比对成功,这一个全链路的识别准确率。这里涉及的因素非常多,跟产品交互、视觉设计、系统构架等都有关。比如,我们刚开始上线的时候,整体的通过率是不高的,虽然最终比对的通过率很高,达到 99% 了,但是全链路的通过率是非常低的。我们通过详细的日志分析后发现,很大一部分原因是用户姿势和刷脸动作不规范导致的,比如有的女生喜欢俯拍,这会导致照片很难通过质量检测的部分。如何提升产品本身的易用性,是否需要一些引导来告诉用户如何更加规范地使用产品,是通过图示还是通过文字方式提升用户体验等交互内容,到视觉设计,设备适配,以及整个链路上系统的稳定性、可靠性以及实时性、甚至综合安全策略等,都是需要很深的系统工程和产品设计的功底,以及如金融云等安全强大的计算基础架构。所以综合来看,人脸识别技术的大规模应用,特别在金融场景下的应用,不仅仅是算法问题,更多的是一个产品和系统工程问题。
另一方面,由于拍脸本身和摄像头也有很大的关系,所以像安卓设备的碎片化也会造成一些干扰。碎片化指的是安卓的机型很多,特别是低端的设备也很多,比如摄像头的配置、CPU 的大小、耗电量都不相同。如何兼容不同的设备,让所有用户有类似的体验,适应不同的角度、光线,这需要根据线上场景有用户、有数据,进行不断地迭代才能做参数的优化配置、算法的自动优化。数据的累积和用户的尝试都是我们所期望的。我们在 2015 年 7 月份上线,刚开始还没有全部铺开,基于数据驱动产品的思路,大概经过了一年的快速迭代、优化,每周都会跑一些灰度的数据,做 ABTest,调整参数,测试在什么样的场景下用户通过率更高。
我们也做了很多用户体验的测试,比如到大街上,随机抽取一些不同年龄段、不同收入层次的人群,测试他们对于支付宝的刷脸这一功能能否使用,是否接受,可否通过,同时通过大量的电话回访了解真实用户的使用场景和刷脸过程遇到的实际问题。支付宝拥有 4.5 亿的实名用户,我们的技术不是为少数人服务的,是为所有人服务的。我们希望每一个人都能利用这项技术提升体验和安全性,使得人工智能可以适应于更多的场景、人群、甚至是设备。
机器之心:活体检测作为身份验证的关键环节,是必不可少的。可否为我们介绍一下活体检测过程?
陈继东:除了人脸检测、人脸比对之外,活体检测是最核心的技术,也是所有生物识别里必须要解决的问题。活体检测的算法目前也有很多,一类是纯软件的方法,一类是与传感器相关的解决方案。例如,指纹识别是通过电容、电感传感器来检测是否是活体、是否真实;虹膜识别是通过红外摄像头来完成识别活体的。然而,对于人脸来说,我们很难用特定的设备部署于手机上,比如红外摄像头目前在手机上普及率就很低。所以我们现在依赖一系列软件算法,包括基于动作交互的识别模型,以及基于图像分析的识别模型。基于动作交互给用户的体验是眨眼、摇头、张嘴,市场上的人脸活体检测算法大部分是基于这种动作交互的识别模型,可以检测过程中动作的连续性。在这种情况下,照片是很难通过的,但是有一些视频会模拟动作,或者是进行拼接产生预定的动作视频,这类情况我们也遇到过。所以除了动作交互之外,还需要图像的分析,比如说区分正常的图像和通过软件模拟、视频剪辑的图像之间有多大的差异。
机器之心:支付安全性是用户关注的重点,「刷脸」支付是否存在安全隐患呢?在面对攻击时,如何防止这种情况的发生呢?
陈继东:其实,我们在活体检测这一块研发的工作量要远远超过人脸比对过程。因为金融场景下涉及资金损失,利益是非常大的,所以黑色产业链会想尽各种办法进行攻击,比如运用照片、视频软件,甚至包括市面上越来越多的换脸软件或者是二维、三维人脸建模软件。如果没有活体检测的保障,我们是无法把这项技术大规模应用于金融级的。事实上,基本市场上所有的攻击方式,自刷脸服务上线以来,我们都经历过,包括现在每天我们都会拦截甚至上千的攻击量。有些是恶意的,而有些只是用户去试着玩的。这也是一个动态的过程,所谓动态的过程就是指持续的攻防过程。黑色产业链会根据我们的技术进行研究从而提升攻击能力,那我们反过来也要提升防攻击能力、识别能力,这是一个持续攻防和不断改进的过程。最近的技术在过去两年有很大的发展,攻击手段也在不断改进。从前他们只是利用照片、视频进行攻击,现在更多是利用计算机图像软件来做人脸的合成、3D 建模,甚至他们也用深度学习的方法来做人脸的模拟。他们的攻击越来越逼真,而我们的算法也在不断优化。安全是不可能做到百分之百的,很多场景下,安全保障除了活体检测技术,还需要一整套复杂的安全策略和实时决策系统,结合环境、设备、行为等多维数据形成综合的决策,并且能根据不同场景和攻击手段进行动态灵活的调整。蚂蚁有一套智能的大数据风控系统,可以在上面非常灵活地做实时的策略配置以及综合决策。利用智能系统结合不同防攻击策略、结合活体检测,这是一个多维度的综合防攻击能力。
另外,还有图像脱敏技术,数据安全和隐私保护也是很重要的。图像脱敏就是说,不管是图像的存储、还是传输,我们希望不是原始的图像。虽然人脸相对不是那么隐私的数据,特别在城市中大量的摄像头在扫描和监控人脸信息,用户也习惯了把自己的照片上传到网络上,但是我们从数据安全和隐私保护的角度来说,希望图像的存储和传输除了加密之外,能够把特征提取出来不可还原,即希望这个过程是不可逆的。这样即使这些特征数据被泄露、被攻击,即使被拿走了,也不会造成什么严重的后果。