且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

腾讯优图为「刷脸」之旅打造新任守护者——「极光守卫」

更新时间:2022-08-22 14:15:56

极光守卫 Aurora Guard,这个名字听起来好似是某部好莱坞大片中惩恶扬善的超级英雄,或是科幻小说里拯救地球的未来战士。他一出场就自带舞台效果,眼里有星辰大海,身后有万丈光芒,铜墙铁骨坐镇一方,一身孤勇足以抵御八方来袭。

 

不过事实上,这个酷炫名字的背后并非一个有血有肉的「守护者」,而是腾讯优图实验室研发的一项新技术——光线活体,它在我们触摸不到的计算机世界里恪尽职守,基于神经网络模型分析投射到人脸上的光线数据,然后推导出活体判断所需的人脸三维和质感信息,在验证成功时放行,同时阻挡企图蒙混过关的攻击者的袭击。


「极光守卫」的诞生


众所周知,活体检测环节在人脸识别解决方案中的作用至关重要。

 

随着人脸技术的火速发展,不法分子的人脸攻击手段也层出不穷,仅凭二维信息实现活体检测已经不够缜密。为了阻挡屏幕翻拍、照片打印、3D 面具等浑水摸鱼手段,三维重建成为了活体检测中必不可少的一个过程。

 

三维重建并不是一个新颖的课题,基于双目视觉原理的三维重建早已应用于自动驾驶等领域。而 2017 年上市的 iPhone X,则让基于结构光的三维重建出尽风头,结构光技术在业内人士口中出现的频率也陡然上升。


腾讯优图团队继独创的唇语活体上线并广泛应用后,于 2016 年初就着手准备研发新的活体检测技术,致力于挖掘手机上各式传感器的潜力。在展开了头脑风暴并提出了一系列天马行空的想法后,团队最终锁定了最具潜力的结构光原理,期望可以从反射光中提取有价值的信息,并于 2016 年 10 月正式进行光线活体技术的研发。

 

结构光三维重建的实现需要具备三个要素,分别是两个硬件要素和一个逻辑要素。硬件要素包括发射光线的发射器以及接收反射光线的接收器,逻辑要素是保证光线处于动态。

 

同样利用了结构光原理的 iPhone X 上就部署了前置 3D 结构光摄像模组,然后通过发射光斑让光线发生变化,然后对不同帧进行匹配从而恢复精准的三维信息。

 

而腾讯优图则让手机屏幕担当发射器的工作,发射出不同颜色和强度的光线。而由于人脸是立体的,光线打到不同部位的变化幅度有所不同,使用一系列算法处理和卷积神经网络,可以从包含变化光线信号的视频中构建出相应的深度信息。目前,团队正在撰写光线活体技术实现细节的相关论文,计划于今年发表。


据腾讯优图团队介绍:「活体」听起来多少有点恐怖的意思,所以他们想取一个有亲和力、好接受的名字,后来便想到了「极光守卫」。

 

腾讯优图为「刷脸」之旅打造新任守护者——「极光守卫」

视频攻击没有通过「极光守卫」的验证,其中用于攻击的人脸合成视频摘自国外学术论文,其合成精细程度和动作自然程度都较为逼真

腾讯优图活体技术的升级之旅

 

2016 年底,团队完成了光线活体检测的原型 Demo。之所以能在短短的一个多月时间里初步完成技术层面的研发,离不开腾讯优图此前在活体检测领域的积累和沉淀。

 

腾讯优图在活体检测技术上的探索之旅最早要追溯到 2014 年的下半年。

 

当时腾讯优图团队开始接触微众银行的金融核身业务,该场景中的产品需求是让用户无需跑到线下,而是在线上通过人脸验证远程实现证件开户。

 

面对这个需求,腾讯优图实验室的人脸团队从 0 开始研发整套人脸核身解决方案,其中就包括活体检测部分,并在之后不断对其进行更新完善。

 

事实上,那时业内已经普遍动作活体检测方法,例如让用户进行摇头、眨眼等简单的互动模式,从而判断镜头前的是否为真人。


据介绍,衡量活体检测的安全级别可以从两个维度进行考量,一为识别模式是否难以被设备重现,二为识别模式是否难以被构造生成。而从这两个维度出发,动作活体的检测效果并不乐观。

 

用户进行摇头、眨眼这类简单动作互动的原始视频一旦被攻击者拿到,那么就完成了重现过程,这种屏幕翻拍方法也是在「刷脸」核身早期阶段的主要攻击手段。而随着攻击技术的提升,人脸合成技术开始出现,摇头、眨眼等动作互动的生成难度也随之降低。

 

考虑动作活体检测方案有限的安全性和创新程度等因素,团队索性决定研发一套全新的技术手段。经过短期的调研与研究,团队选择把主要精力投入到唇语活体技术的研发上面,旨在通过用户念一串随机的数字,结合用户的唇语和语音数据,联合判断镜头前的是否为真人。而为了适配行业内的常见交互形式,仅在动作活体检测上投入较少的精力。

 

由于用户朗读的数字是随机生产的,所以攻击者较难在事先拿到带有用户读取随机数字的口型的视频,重现难度较高。此外,合成用户朗读数字的声线也并非易事,生成难度也有所提升。要想攻破唇语活体检测模型,攻击者不仅需要合成用户念数字的口型,还要具备语音合成工具,攻击成本大幅增加。

 

因此,相较于动作活体,唇语活体从多维度增添了攻击门槛,安全级别较高,并在之后落地于滴滴、微信公众号的应用场景。

 

不过,唇语活体的研发与落地之路也并非一帆风顺,难点主要受限于移动端的种种因素。

 

首先,读取随机数字这个过程增加了用户的使用门槛,使得交互变得复杂。腾讯优图将最初上线的唇语活体检测版本需要用户念出 8 个数字,后来精简到了 4 个。


腾讯优图为「刷脸」之旅打造新任守护者——「极光守卫」

腾讯优图的唇语活体检测技术


其次,唇语活体存在一定的不可控性,可能出现方言或是吐字不清的情况,用户念数字的速度也有快有慢,而且不同人念同一个数字的口型也会不同。因此要提升算法的判别效果、构建鲁棒的模型,需要海量的数据。另外,覆盖用户念全所有随机数字的视频有可能容量较大,不易传送到后台进行全量的分析。


据团队介绍,在研发光线活体技术的过程中遇到的最大障碍也是如此,主要在于学术研究到应用场景的移植。在产品化的过程中,团队需要考虑到方方面面的影响因素,例如光线、机型适配,模型对数据的敏感性以及用户体验等。

 

无疑,当年在唇语活体上的摸索都为如今「极光守卫」的实现提供了宝贵经验和解决思路。


此外,为了抵御各种攻击情况,腾讯优图还研发了多种检测手段交叉融合以实现面面俱到,例如人脸纹理分析,视频条纹防翻拍等。通过复合活体检测手段对细节进行分析,可以最大化检测通过率和防攻击率。光线活体技术与这些手段策略的结合则为活体检测提供了多重保障。

 

「自上而下」的研发思路


作为腾讯优图在活体技术上的进一步升级,「极光守卫」光线活体技术已经在微众银行场景正式展开应用。据了解,上线以来,「极光守卫」的运营十分平稳,通过率和便捷效果都较为理想,算法、工程上没有出现较大问题,主要问题仅集中在后台服务的处理性能优化上。

 

可以发现,这项技术的用户体验较好,无需用户进行任何动作交互,只需短暂保持姿态就可以瞬间完成「刷脸」验证,而且支持所有移动设备和刷脸机器的使用,在平台和机型上具有普适性。

 

作为腾讯优图在活体技术上的进一步升级,光线活体技术通过闪光模拟实现了多重随机信息的编码和解码,建立在密码学的坚实基础之上,是目前已知安全级别最高的技术之一。


目前,光线活体可以有效抵御普通的人脸面具、人脸模型以及所有的屏幕翻拍和照片,不过,这并不意味着光线活体检测技术的安全级别达到了极致或是足够完美。技术在不断发展,团队的研发没有停步,还在继续优化,防范可能出现的新攻击形态。

 

优图团队向我们介绍时提到:「团队研发的逻辑是自上而下,先把安全性最高的活体检测方案做出来,实验论证之后再考虑如何兼顾用户体验和场景应用。如果是由下而上,一开始先考虑的是如何应用,在有限的条件下做出相对安全的东西,那么之后从下向上拔高的空间非常有限。」

 

这是腾讯优图实验室自带的基因,也是与业务为先的创业公司最大的区别,那就是团队的主要研发目的是解决学术界的难题。

 

未来,腾讯优图团队也将不断挖掘前沿算法的最大潜力,并尝试真正解决业内存留的一系列难题,在活体检测的道路上带来更多惊喜,也让「刷脸」背后的「守护者」更值得信赖。