人脸识别最全综述:详解人脸识别技术、人才、趋势
人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。通常采用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸。
自20世纪下半叶,计算机视觉技术逐渐地发展壮大。同时,伴随着数字图像相关的软硬件技术在人们生活中的广泛使用,数字图像已经成为当代社会信息来源的重要构成因素,各种图像处理与分析的需求和应用也不断促使该技术的革新。
根据资料,2017 年生物识别技术全球市场规模上升到了 172 亿美元,到 2020 年,预计全世界的生物识别市场规模有可能达到 240 亿美元。自 2015 年到 2020 年,人脸识别市场规模增长了 166.6%,在众多生物识别技术中增幅居于首位,预计到 2020 年人脸识别技术市场规模将上升至 24 亿美元。
本文内容来自清华大学副教授唐杰领导的学者大数据挖掘项目Aminer的研究报告,讲解人脸识别技术及其应用领域,介绍人脸识别领域的国内外人才并预测该技术的发展趋势。
人脸识别技术概述
基本概念
人类视觉系统的独特魅力驱使着研究者们试图通过视觉传感器和计算机软硬件模拟出人类对三维世界图像的采集、处理、分析和学习能力,以便使计算机和机器人系统具有智能化的视觉功能。
在过去 30 年间,众多不同领域的科学家们不断地尝试从多个角度去了解生物视觉和神经系统的奥秘,以便借助其研究成果造福人类。
自 20 世纪下半叶,计算机视觉技术就在此背景下逐渐地发展壮大。同时,伴随着数字图像相关的软硬件技术在人们生活中的广泛使用,数字图像已经成为当代社会信息来源的重要构成因素,各种图像处理与分析的需求和应用也不断促使该技术的革新。
计算机视觉技术的应用十分广泛。数字图像检索管理、医学影像分析、智能安检、人机交互等领域都有计算机视觉技术的涉足。该技术是人工智能技术的重要组成部分,也是当今计算机科学研究的前沿领域。经过近年的不断发展,已逐步形成一套以数字信号处理技术、计算机图形图像、信息论和语义学相互结合的综合性技术,并具有较强的边缘性和学科交叉性。其中,人脸检测与识别当前图像处理、模式识别和计算机视觉内的一个热门研究课题, 也是目前生物特征识别中最受人们关注的一个分支。
人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。通常采用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸。
根据中国报告网发布《2018 年中国生物识别市场分析报告-行业深度分析与发展前景预测》中内容,2017 年生物识别技术全球市场规模上升到了 172 亿美元,到 2020 年,预计全世界的生物识别市场规模有可能达到 240 亿美元。自 2015 年到 2020 年,人脸识别市场规模增长了 166.6%,在众多生物识别技术中增幅居于首位,预计到 2020 年人脸识别技术市场规模将上升至 24 亿美元。
在不同的生物特征识别方法中,人脸识别有其自身特殊的优势,因而在生物识别中有着重要的地位。
人脸识别的五个优势:
非侵扰性
人脸识别无需干扰人们的正常行为就能较好地达到识别效果,无需担心被识别者是否愿意将手放在指纹采集设备上,他们的眼睛是否能够对准虹膜扫描装置等等。只要在摄像机前自然地停留片刻,用户的身份就会被正确识别。
便捷性
采集设备简单,使用快捷。一般来说,常见的摄像头就可以用来进行人脸图像的采集, 不需特别复杂的专用设备。图像采集在数秒内即可完成。
友好性
通过人脸识别身份的方法与人类的习惯一致,人和机器都可以使用人脸图片进行识别。而指纹,虹膜等方法没有这个特点,一个没有经过特殊训练的人,无法利用指纹和虹膜图像对其他人进行身份识别。
非接触性
人脸图像信息的采集不同于指纹信息的采集,利用指纹采集信息需要用手指接触到采集设备,既不卫生,也容易引起使用者的反感,而人脸图像采集,用户不需要与设备直接接触。
可扩展性
在人脸识别后,下一步数据的处理和应用,决定着人脸识别设备的实际应用,如应用在出入门禁控制、人脸图片搜索、上下班刷卡、恐怖分子识别等各个领域,可扩展性强。
正是因为人脸识别拥有这些良好的特性,使其具有非常广泛的应用前景,也正引起学术界和商业界越来越多的关注。人脸识别已经广泛应用于身份识别、活体检测、唇语识别、创意相机、人脸美化、社交平台等场景中。
发展历程
早在 20 世纪 50 年代,认知科学家就已着手对人脸识别展开研究。20 世纪 60 年代,人脸识别工程化应用研究正式开启。当时的方法主要利用了人脸的几何结构,通过分析人脸器官特征点及其之间的拓扑关系进行辨识。这种方法简单直观,但是一旦人脸姿态、表情发生变化,精度则严重下降。
20世纪90年代
1991 年,著名的“特征脸”(Eigenface)方法第一次将主成分分析和统计特征技术引入人脸识别,在实用效果上取得了长足的进步。这一思路也在后续研究中得到进一步发扬光大, 例如,Belhumer 成功将 Fisher 判别准则应用于人脸分类,提出了基于线性判别分析的Fisherface 方法。
2000-2012年
21 世纪的前十年,随着机器学习理论的发展,学者们相继探索出了基于遗传算法、支持向量机(Support Vector Machine,SVM)、boosting、流形学习以及核方法等进行人脸识别。2009 年至 2012 年,稀疏表达(Sparse Representation)因为其优美的理论和对遮挡因素的鲁棒性成为当时的研究热点。与此同时,业界也基本达成共识:基于人工精心设计的局部描述子进行特征提取和子空间方法进行特征选择能够取得最好的识别效果。
Gabor 及 LBP 特征描述子是迄今为止在人脸识别领域最为成功的两种人工设计局部描述子。这期间,对各种人脸识别影响因子的针对性处理也是那一阶段的研究热点,比如人脸光照归一化、人脸姿态校正、人脸超分辨以及遮挡处理等。
也是在这一阶段,研究者的关注点开始从受限场景下的人脸识别转移到非受限环境下的人脸识别。LFW 人脸识别公开竞赛(LFW 是由美国马萨诸塞大学发布并维护的公开人脸数集,测试数据规模为万)在此背景下开始流行,当时最好的识别系统尽管在受限的 FRGC 测试集上能取得 99%以上的识别精度,但是在 LFW 上的最高精度仅仅在 80%左右,距离实用看起来距离颇远。
2013年
微软亚洲研究院的研究者首度尝试了 10 万规模的大训练数据,并基于高维LBP 特征和 Joint Bayesian 方法在 LFW 上获得了 95.17%的精度。这一结果表明:大训练数据集对于有效提升非受限环境下的人脸识别很重要。然而,以上所有这些经典方法,都难以处理大规模数据集的训练场景。
2014年
2014 年前后,随着大数据和深度学习的发展,神经网络重受瞩目,并在图像分类、手写体识别、语音识别等应用中获得了远超经典方法的结果。香港中文大学的 Sun Yi 等人提出将卷积神经网络应用到人脸识别上,采用 20 万训练数据,在 LFW 上第一次得到超过人类水平的识别精度,这是人脸识别发展历史上的一座里程碑。自此之后,研究者们不断改进网络结构,同时扩大训练样本规模,将 LFW 上的识别精度推到 99.5%以上。人脸识别发展过程中一些经典的方法及其在 LFW 上的精度,都有一个基本的趋势:训练数据规模越来越大,识别精度越来越高。