人臉識(shí)別原理與模型方法綜述
一、人臉識(shí)別流程
圖一、人臉識(shí)別流程圖
二、優(yōu)點(diǎn)特性
1、便捷性
采集設(shè)備簡(jiǎn)單,使用快捷。一般來(lái)說,常見的攝像頭就可以用來(lái)進(jìn)行人臉圖像的采集, 不需特別復(fù)雜的專用設(shè)備。圖像采集在數(shù)秒內(nèi)即可完成。
2、友好性
通過人臉識(shí)別身份的方法與人類的習(xí)慣一致,人和機(jī)器都可以使用人臉圖片進(jìn)行識(shí)別。而指紋,虹膜等方法沒有這個(gè)特點(diǎn),一個(gè)沒有經(jīng)過特殊訓(xùn)練的人,無(wú)法利用指紋和虹膜圖像對(duì)其他人進(jìn)行身份識(shí)別。
3、非接觸性
人臉圖像信息的采集不同于指紋信息的采集,利用指紋采集信息需要用手指接觸到采集設(shè)備,既不衛(wèi)生,也容易引起使用者的反感,而人臉圖像采集,用戶不需要與設(shè)備直接接觸。
4、可擴(kuò)展性
在人臉識(shí)別后,下一步數(shù)據(jù)的處理和應(yīng)用,決定著人臉識(shí)別設(shè)備的實(shí)際應(yīng)用,如應(yīng)用在出入門禁控制、人臉圖片搜索、上下班刷卡、恐怖分子識(shí)別等各個(gè)領(lǐng)域,可擴(kuò)展性強(qiáng)。
三、影響因素
1. 分辨率(大?。鹤罴逊直媛实阶钚》直媛剩ㄅR界分辨率)之間最穩(wěn)定
2. 清晰度
3. 光照環(huán)境
4. 模糊程度
5. 遮擋程度
6. 采集角度
四、人臉識(shí)別技術(shù)流程
人臉識(shí)別技術(shù)原理簡(jiǎn)單來(lái)講主要是三大步驟:
1、建立一個(gè)包含大批量人臉圖像的數(shù)據(jù)庫(kù),來(lái)源:自傳照片、身份證讀卡器、公安人臉比對(duì)接(已關(guān)閉);
2、通過各種方式來(lái)獲得當(dāng)前要進(jìn)行識(shí)別的目標(biāo)人臉圖像;
3、將目標(biāo)人臉圖像與數(shù)據(jù)庫(kù)中既有的人臉圖像進(jìn)行比對(duì)和篩選。
根據(jù)人臉識(shí)別技術(shù)原理具體實(shí)施起來(lái)的技術(shù)流程則主要包含以下四個(gè)部分,即:人臉圖像的采集與預(yù)處理、人臉檢測(cè)、人臉特征提取、人臉識(shí)別和活體鑒別。
1、人臉圖像的采集與預(yù)處理
?。?)人臉圖像的采集:
采集人臉圖像通常情況下有兩種途徑,分別是既有人臉圖像的批量導(dǎo)入和人臉圖像的實(shí)時(shí)采集
?。?)人臉圖像的預(yù)處理:
人臉圖像的預(yù)處理的目的是在系統(tǒng)對(duì)人臉圖像的檢測(cè)基礎(chǔ)之上,對(duì)人臉圖像做出進(jìn)一步的處理,即灰度調(diào)整、圖像濾波、圖像尺寸歸一化等,以利于人臉圖像的特征提取。人臉圖像的預(yù)處理具體而言是指對(duì)系統(tǒng)采集到的人臉圖像進(jìn)行光線、旋轉(zhuǎn)、切割、過濾、降噪、放大縮小等一系列的復(fù)雜處理過程來(lái)使得該人臉圖像無(wú)論是從光線、角度、距離、大小等任何方面來(lái)看均能夠符合人臉圖像的特征提取的標(biāo)準(zhǔn)要求。
基于人臉檢測(cè)結(jié)果,對(duì)圖像進(jìn)行處理并最終服務(wù)于特征提取的過程。系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機(jī)干擾,往往不能直接使用,必須在圖像處理的早期階段對(duì)它進(jìn)行灰度矯正、噪聲過濾等圖像預(yù)處理。
預(yù)處理過程:
1)人臉對(duì)準(zhǔn)(得到人臉位置端正的圖像);
2)人臉圖像的光線補(bǔ)償,灰度變換、直方圖均衡化、歸一 化(取得尺寸一致,灰度取值范圍相同的標(biāo)準(zhǔn)化人臉圖像);
3)幾何校正、中值濾波(圖片的平滑操作以消除噪聲)以及銳化等。
2、人臉檢測(cè)
在圖像中準(zhǔn)確標(biāo)定出人臉的位置和大小,并把其中有用的信息挑出來(lái)(如直方圖特征、顏色特征、模板特征、結(jié)構(gòu)特征及Haar特征等),然后利用信息來(lái)達(dá)到人臉檢測(cè)的目的。
人臉關(guān)鍵點(diǎn)檢測(cè)(人臉對(duì)齊):自動(dòng)估計(jì)人臉圖片上臉部特征點(diǎn)的坐標(biāo)。
一張包含人臉圖像的圖片通常情況下可能還會(huì)包含其他內(nèi)容,這時(shí)候就需要進(jìn)行必要的人臉檢測(cè)。也就是在一張人臉圖像之中,系統(tǒng)會(huì)精準(zhǔn)的定位出人臉的位置和大小,在挑選出有用的圖像信息的同時(shí)自動(dòng)剔除掉其他多余的圖像信息來(lái)進(jìn)一步的保證人臉圖像的精準(zhǔn)采集。人臉檢測(cè)是一個(gè)具有挑戰(zhàn)性的目標(biāo)檢測(cè)問題,主要體現(xiàn)在兩方面:
?。?)人臉目標(biāo)內(nèi)在的變化引起:
1)人臉具有相當(dāng)復(fù)雜的細(xì)節(jié)變化和不同的表情(眼、嘴的開與閉等);
2)不同的人臉具有不同的外貌,如臉形、膚色等;
3)人臉的遮擋,如眼鏡、頭發(fā)和頭部飾物等。
?。?)外在條件變化引起:
1)由于成像角度的不同造成人臉的多姿態(tài),如平面內(nèi)旋轉(zhuǎn)、深度旋轉(zhuǎn)以及上下旋轉(zhuǎn)等,其中深度旋轉(zhuǎn)影響較大;
2)光照的影響,如圖像中的亮度、對(duì)比度的變化和陰影等;
3)圖像的成像條件,如攝像設(shè)備的焦距、成像距離等。
人臉檢測(cè)重點(diǎn)關(guān)注以下指標(biāo):
?。?)檢測(cè)率:識(shí)別正確的人臉/圖中所有的人臉。檢測(cè)率越高,檢測(cè)模型效果越好;
(2)誤檢率:識(shí)別錯(cuò)誤的人臉/識(shí)別出來(lái)的人臉。誤檢率越低,檢測(cè)模型效果越好;
?。?)漏檢率:未識(shí)別出來(lái)的人臉/圖中所有的人臉。漏檢率越低,檢測(cè)模型效果越好;
(4)速度:從采集圖像完成到人臉檢測(cè)完成的時(shí)間。時(shí)間越短,檢測(cè)模型效果越好。
目前的人臉檢測(cè)方法可分為三類,分別是基于膚色模型的檢測(cè)、基于邊緣特征的檢測(cè)、基于統(tǒng)計(jì)理論方法,
?。?)基于膚色模型的檢測(cè):
膚色用于人臉檢測(cè)時(shí),可采用不同的建模方法,主要有高斯模型、高斯混合模型,以及非參數(shù)估計(jì)等。利用高斯模型和高斯混合模型可以在不同顏色空間中建立膚色模型來(lái)進(jìn)行人臉檢測(cè)。通過提取彩色圖像中的面部區(qū)域以實(shí)現(xiàn)人臉檢測(cè)的方法能夠處理多種光照的情況, 但該算法需要在固定攝像機(jī)參數(shù)的前提下才有效。Comaniciu 等學(xué)者利用非參數(shù)的核函數(shù)概率密度估計(jì)法來(lái)建立膚色模型,并使用 mean-shift 方法進(jìn)行局部搜索實(shí)現(xiàn)了人臉的檢測(cè)和跟蹤。這一方法提高了人臉的檢測(cè)速度,對(duì)于遮擋和光照也有一定的魯棒性。該方法的不足是和其他方法的可結(jié)合性不是很高,同時(shí),用于人臉檢測(cè)時(shí),處理復(fù)雜背景和多個(gè)人臉時(shí)存在困難。為了解決人臉檢測(cè)中的光照問題,可以針對(duì)不同光照進(jìn)行補(bǔ)償,然后再檢測(cè)圖像中的膚色區(qū)域。這樣可以解決彩色圖像中偏光、背景復(fù)雜和多個(gè)人臉的檢測(cè)問題,但對(duì)人臉色彩、位置、尺度、旋轉(zhuǎn)、姿態(tài)和表情等具有不敏感性。
(2)基于邊緣特征的檢測(cè):
利用圖像的邊緣特征檢測(cè)人臉時(shí),計(jì)算量相對(duì)較小,可以實(shí)現(xiàn)實(shí)時(shí)檢測(cè)。大多數(shù)使用邊緣特征的算法都是基于人臉的邊緣輪廓特性,利用建立的模板(如橢圓模版)進(jìn)行匹配。也有研究者采用橢圓環(huán)模型與邊緣方向特征,實(shí)現(xiàn)簡(jiǎn)單背景的人臉檢測(cè)。Fr?ba 等采用基于邊緣方向匹配(Edge-Orientation Matching,EOM)的方法,在邊緣方向圖中進(jìn)行人臉檢測(cè)。該算法在復(fù)雜背景下誤檢率比較高,但是與其他的特征相融合后可以獲得很好的效果。
(3)基于統(tǒng)計(jì)理論方法:
本文重點(diǎn)介紹基于統(tǒng)計(jì)理論方法中的Adaboost人臉檢測(cè)算法。Adaboost算法是通過無(wú)數(shù)次循環(huán)迭代來(lái)尋求最優(yōu)分類器的過程?;跈z測(cè)出的特征采用Adaboost學(xué)習(xí)算法(一種用來(lái)分類的方法,它把一些比較弱的分類方法合在一起,組合出新的很強(qiáng)的分類方法)挑選出一些最能代表人臉的矩形特征(弱分類器),按照加權(quán)投票的方式將弱分類器構(gòu)造為一個(gè)強(qiáng)分類器,再將訓(xùn)練得到的若干強(qiáng)分類器串聯(lián)組成一個(gè)級(jí)聯(lián)結(jié)構(gòu)的層疊分類器,有效地提高分類器的檢測(cè)速度。用弱分類器Haar特征中任一特征放在人臉樣本上,求出人臉特征值,通過更多分類器的級(jí)聯(lián)便得到人臉的量化特征,以此來(lái)區(qū)分人臉和非人臉。Haar功能由一些簡(jiǎn)單黑色白色水平垂直或旋轉(zhuǎn)45°的矩形組成。目前的Haar特征總的來(lái)說廣義地分為三類:邊緣特征、線特征以及中心特征。
?。?)其他框架:
viola-jones框架(性能一般速度尚可,適合移動(dòng)端、嵌入式上使用)、dpm(速度較慢)、CNN(性能不錯(cuò))
3、人臉特征提取
人臉識(shí)別系統(tǒng)可使用的特征通常分為視覺特征、像素統(tǒng)計(jì)特征、人臉圖像變換系數(shù)特征、人臉圖像代數(shù)特征等。人臉特征提取就是針對(duì)人臉的某些特征進(jìn)行的,也稱人臉表征,它是對(duì)人臉進(jìn)行特征建模的過程。
方法:
(1)基于知識(shí)的表征方法(主要包括基于幾何特征法和模板匹配法):
根據(jù)人臉器官的形狀描述以及它們之間的距離特性來(lái)獲得有助于人臉分類的特征數(shù)據(jù),其特征分量通常包括特征點(diǎn)間的歐氏距離、曲率、和角度等。人臉由眼睛、鼻子、嘴、下巴等局部構(gòu)成,對(duì)這些局部和他們之間結(jié)構(gòu)關(guān)系的幾何描述,可作為識(shí)別人臉的重要特征,這些特征被稱為幾何特征。
?。?)基于代數(shù)特征或統(tǒng)計(jì)學(xué)習(xí)的表征方法:
基于代數(shù)特征方法的基本思想是將人臉在空域內(nèi)的高維描述轉(zhuǎn)化為頻域或者其他空間內(nèi)的低維描述,其表征方法為線性投影表征方法和非線性投影表征方法?;诰€性投影的方法主要有主成分分析法或稱K-L變化、獨(dú)立成分分析法和Fisher線性判別分析法。非線性特征提取方法有兩個(gè)重要的分支:基于核的特征提取技術(shù)和以流形學(xué)習(xí)為主導(dǎo)的特征提取技術(shù)。
4、匹配與識(shí)別:
提取的人臉特征值數(shù)據(jù)與數(shù)據(jù)庫(kù)中存貯的特征模板進(jìn)行搜索匹配,通過設(shè)定一個(gè)閾值,將相似度與這一閾值進(jìn)行比較,來(lái)對(duì)人臉的身份信息進(jìn)行判斷。目前主要有幾種研究的方向,如:
?。?)基于人臉特征統(tǒng)計(jì)學(xué)的識(shí)別方法
特征臉的方法是一種比較經(jīng)典而又應(yīng)用比較廣的人臉識(shí)別方法,其主要原理是把圖像做降維算法,使得數(shù)據(jù)的處理更容易,同時(shí),速度又比較快。特征臉的人臉識(shí)別方法,實(shí)際上是將圖像做 Karhunen-Loeve 變換,把一個(gè)高維的向量轉(zhuǎn)化為低維的向量,從而消除每個(gè)分量存在的關(guān)聯(lián)性,使得變換得到的圖像與之對(duì)應(yīng)特征值遞減。在圖像經(jīng)過 K-L 變換后,其具有很好的位移不變性和穩(wěn)定性。所以,特征臉的人臉識(shí)別方法具有方便實(shí)現(xiàn),并且可以做到速度更快,以及對(duì)正面人臉圖像的識(shí)別率相當(dāng)高等優(yōu)點(diǎn)。但是,該方法也具有不足的地方, 就是比較容易受人臉表情、姿態(tài)和光照改變等因素的影響,從而導(dǎo)致識(shí)別率低的情況。其主要有特征臉的方法以及隱馬爾科夫模型(HMM,Hidden Markov Model)方法等;
1)Eigen Face(特征臉)
MIT實(shí)驗(yàn)室的特克(Turk)和潘特(Pentland)提出的“特征臉”方法第一次將主成分分析和統(tǒng)計(jì)特征技術(shù)引入人臉識(shí)別,在實(shí)用效果上取得了長(zhǎng)足的進(jìn)步。征臉技術(shù)是近期發(fā)展起來(lái)的用于人臉或者一般性剛體識(shí)別以及其它涉及到人臉處理的一種方法。使用特征臉進(jìn)行人臉識(shí)別的方法首先由 Sirovich 和 Kirby(1987)提出(《Low- dimensional procedure for the characterization of human faces》),并由 Matthew Turk 和 Alex Pentland 用于人臉分類(《Eigenfaces for recognition》)。首先把一批人臉圖像轉(zhuǎn)換成一個(gè)特征向量集,稱為“Eigenfaces”,即“特征臉”,它們是最初訓(xùn)練圖像集的基本組件。識(shí)別的過程是把一副新的圖像投影到特征臉子空間,并通過它的投影點(diǎn)在子空間的位置以及投影線的長(zhǎng)度來(lái)進(jìn)行判定和識(shí)別。
將圖像變換到另一個(gè)空間后,同一個(gè)類別的圖像會(huì)聚到一起,不同類別的圖像會(huì)聚力比較遠(yuǎn),在原像素空間中不同類別的圖像在分布上很難用簡(jiǎn)單的線或者面切分,變換到另一個(gè)空間,就可以很好的把他們分開了。Eigenfaces 選擇的空間變換方法是 PCA(主成分分析), 利用 PCA 得到人臉分布的主要成分,具體實(shí)現(xiàn)是對(duì)訓(xùn)練集中所有人臉圖像的協(xié)方差矩陣進(jìn)行本征值分解,得到對(duì)應(yīng)的本征向量,這些本征向量就是“特征臉”。每個(gè)特征向量或者特征臉相當(dāng)于捕捉或者描述人臉之間的一種變化或者特性。這就意味著每個(gè)人臉都可以表示為這些特征臉的線性組合。其后的很多人臉識(shí)別技術(shù)都或多或少與特征臉有關(guān)系,現(xiàn)在特征臉已經(jīng)與歸一化的協(xié)相關(guān)量(Normalized Correlation)方法一道成為人臉識(shí)別的性能測(cè)試基準(zhǔn)算法。
2)局部二值模式(Local Binary Patterns,LBP)
局部二值模式(Local Binary Patterns LBP)是計(jì)算機(jī)視覺領(lǐng)域里用于分類的視覺算子。LBP 一種用來(lái)描述圖像紋理特征的算子,該算子由芬蘭奧盧大學(xué)的 T.Ojala 等人在 1996 年提 出 ( 《 A comparative study of texture measures with classification based on featured distributions》)。2002 年, T.Ojala 等人在 PAMI 上又發(fā)表了一篇關(guān)于 LBP 的文章(《Multiresolution gray-scale and rotation invariant texture classification with local binary patterns》)。這一文章非常清楚的闡述了多分辨率、灰度尺度不變和旋轉(zhuǎn)不變、等價(jià)模式的改進(jìn)的 LBP 特征。LBP 的核心思想就是:以中心像素的灰度值作為閾值,與他的領(lǐng)域相比較得到相對(duì)應(yīng)的二進(jìn)制碼來(lái)表示局部紋理特征。
LBP 是提取局部特征作為判別依據(jù)的。LBP 方法顯著的優(yōu)點(diǎn)是對(duì)光照不敏感,但是依然沒有解決姿態(tài)和表情的問題。不過相比于特征臉方法,LBP 的識(shí)別率已經(jīng)有了很大的提升。
3)Fisher Face(漁夫臉):
線性鑒別分析在降維的同時(shí)考慮類別信息,由統(tǒng)計(jì)學(xué)家 Sir R. A. Fisher1936 年發(fā)明(《The use of multiple measurements in taxonomic problems》)。為了找到一種特征組合方式,達(dá)到最大的類間離散度和最小的類內(nèi)離散度。這個(gè)想法很簡(jiǎn)單:在低維表示下,相同的類應(yīng)該緊緊的聚在一起,而不同的類別盡量距離越遠(yuǎn)。1997 年,Belhumer 成功將 Fisher 判別準(zhǔn)則應(yīng)用于人臉分類,提出了基于線性判別分析的 Fisherface 方法(《Eigenfaces vs. fisherfaces: Recognition using class specific linear projection》)。該方法首先采用主成分分析(PCA)對(duì)圖像表觀特征進(jìn)行降維。在此基礎(chǔ)上,采用線性判別分析(LDA)的方法變換降維后的主成分以期獲得“盡量大的類間散度和盡量小的類內(nèi)散度”。該方法目前仍然是主流的人臉識(shí)別方法之一,產(chǎn)生了很多不同的變種,比如零空間法、子空間判別模型、增強(qiáng)判別模型、直接的LDA 判別方法以及近期的一些基于核學(xué)習(xí)的改進(jìn)策略。
?。?)基于幾何特征的方法
幾何特征可以是眼、鼻、嘴等的形狀和它們之間的幾何關(guān)系(如相互之間的距離),利用了人臉的幾何結(jié)構(gòu),通過分析人臉器官特征點(diǎn)及其之間的拓?fù)潢P(guān)系進(jìn)行辨識(shí)。這些算法簡(jiǎn)單直觀,識(shí)別速度快,需要的內(nèi)存小,但一旦人臉姿態(tài)、表情發(fā)生變化,精度則嚴(yán)重下降,識(shí)別率較低。
基于幾何特征識(shí)別的流程大體如下:
1)首先對(duì)人臉面部的各個(gè)特征點(diǎn)及其位置進(jìn)行檢測(cè), 如鼻子、嘴巴和眼睛等位置;
2)然后計(jì)算這些特征之間的距離,得到可以表達(dá)每個(gè)特征臉的矢量特征信息,例如眼睛的位置,眉毛的長(zhǎng)度等;
3)其次還計(jì)算每個(gè)特征與之相對(duì)應(yīng)關(guān)系,與人臉數(shù)據(jù)庫(kù)中已知人臉對(duì)應(yīng)特征信息來(lái)做比較;
4)最后得出最佳的匹配人臉。
基于幾何特征的方法符合人們對(duì)人臉特征的認(rèn)識(shí),另外,每幅人臉只存儲(chǔ)一個(gè)特征,所以占用的空間比較?。煌瑫r(shí),這種方法對(duì)光照引起的變化并不會(huì)降低其識(shí)別率,而且特征模板的匹配和識(shí)別率比較高。但是,基于幾何特征的方法也存在著魯棒性不好,一旦表情和姿態(tài)稍微變化,識(shí)別效果將大打折扣。
(3)基于線段Hausdorff 距離(LHD) 的方法
心理學(xué)的研究表明,人類在識(shí)別輪廓圖(比如漫畫)的速度和準(zhǔn)確度上絲毫不比識(shí)別灰度圖差。LHD是基于從人臉灰度圖像中提取出來(lái)的線段圖的,它定義的是兩個(gè)線段集之間的距離,與眾不同的是,LHD并不建立不同線段集之間線段的一一對(duì)應(yīng)關(guān)系,因此它更能適應(yīng)線段圖之間的微小變化。實(shí)驗(yàn)結(jié)果表明,LHD在不同光照條件下和不同姿態(tài)情況下都有非常出色的表現(xiàn),但是它在大表情的情況下識(shí)別效果不好。流程如下:
1)人臉圖像預(yù)處理:對(duì)齊、尺寸、亮度和對(duì)比度歸一化
2)Canny算子提取人臉邊緣圖
3)去除邊緣線條中的裂縫
4)設(shè)置閾值去除噪音線
5)在LEM中結(jié)合ASM得到人臉對(duì)準(zhǔn)結(jié)果,消除了頭發(fā)和背景的影響
6)增加重要部分地權(quán)重
7)提出線段領(lǐng)域的概念,保持識(shí)別率并提升識(shí)別速度
(4)基于連接機(jī)制
主要有人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)方法和支持向量機(jī)(SVM,Support Vector Machine)方法等。
1)EGM(彈性圖匹配):
其基本思想是用一個(gè)屬性圖來(lái)描述人臉:屬性圖的頂點(diǎn)代表面部關(guān)鍵特征點(diǎn),其屬性為相應(yīng)特征點(diǎn)處的多分辨率、多方向局部特征——Gabor變換12特征,稱為Jet;邊的屬性則為不同特征點(diǎn)之間的幾何關(guān)系。對(duì)任意輸入人臉圖像,彈性圖匹配通過一種優(yōu)化搜索策略來(lái)定位預(yù)先定義的若干面部關(guān)鍵特征點(diǎn),同時(shí)提取它們的Jet特征,得到輸入圖像的屬性圖。最后通過計(jì)算其與已知人臉屬性圖的相似度來(lái)完成識(shí)別過程。該方法的優(yōu)點(diǎn)是既保留了面部的全局結(jié)構(gòu)特征,也對(duì)人臉的關(guān)鍵局部特征進(jìn)行了建模。
2)基于神經(jīng)網(wǎng)絡(luò)的方法
神經(jīng)網(wǎng)絡(luò)的輸入可以是降低分辨率的人臉圖像、局部區(qū)域的自相關(guān)函數(shù)、局部紋理的二階矩等。這類方法同樣需要較多的樣本進(jìn)行訓(xùn)練,而在許多應(yīng)用中,樣本數(shù)量是很有限的。
3)基于深度學(xué)習(xí)的方法
深度學(xué)習(xí)得到的人臉特征表達(dá)具有手工特征表達(dá)所不具備的重要特性,例如它是中度稀疏的、對(duì)人臉身份和人臉屬性有很強(qiáng)的選擇性、對(duì)局部遮擋具有良好的魯棒性。這些特性是通過大數(shù)據(jù)訓(xùn)練自然得到的,并未對(duì)模型加入顯式約束或后期處理,這也是深度學(xué)習(xí)能成功應(yīng)用在人臉識(shí)別中的主要原因。
深度學(xué)習(xí)在人臉識(shí)別上有 7 個(gè)方面的典型應(yīng)用:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的人臉識(shí)別方法,深度非線性人臉形狀提取方法,基于深度學(xué)習(xí)的人臉姿態(tài)魯棒性建模,有約束環(huán)境中的全自動(dòng)人臉識(shí)別,基于深度學(xué)習(xí)的視頻監(jiān)控下的人臉識(shí)別,基于深度學(xué)習(xí)的低分辨率人臉識(shí)別及其他基于深度學(xué)習(xí)的人臉相關(guān)信息的識(shí)別。
其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法,基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,能挖掘數(shù)據(jù)局部特征,提取全局訓(xùn)練特征和分類,其權(quán)值共享結(jié)構(gòu)網(wǎng)絡(luò)使之更類似于生物神經(jīng)網(wǎng)絡(luò),在模式識(shí)別各個(gè)領(lǐng)域都得到成功應(yīng)用。CNN 通過結(jié)合人臉圖像空間的局部感知區(qū)域、共享權(quán)重、在空間或時(shí)間上的降采樣來(lái)充分利用數(shù)據(jù)本身包含的局部性等特征,優(yōu)化模型結(jié)構(gòu),保證一定的位移不變性。
4)基于支持向量機(jī)(SVM) 的方法
近年來(lái),支持向量機(jī)是統(tǒng)計(jì)模式識(shí)別領(lǐng)域的一個(gè)新的熱點(diǎn),它試圖使得學(xué)習(xí)機(jī)在經(jīng)驗(yàn)風(fēng)險(xiǎn)和泛化能力上達(dá)到一種妥協(xié),從而提高學(xué)習(xí)機(jī)的性能。支持向量機(jī)主要解決的是一個(gè)2分類問題,它的基本思想是試圖把一個(gè)低維的線性不可分的問題轉(zhuǎn)化成一個(gè)高維的線性可分的問題。通常的實(shí)驗(yàn)結(jié)果表明SVM有較好的識(shí)別率,但是它需要大量的訓(xùn)練樣本(每類300個(gè)),這在實(shí)際應(yīng)用中往往是不現(xiàn)實(shí)的。而且支持向量機(jī)訓(xùn)練時(shí)間長(zhǎng),方法實(shí)現(xiàn)復(fù)雜,該函數(shù)的取法沒有統(tǒng)一的理論。
基于遺傳算法、支持向量機(jī)(Support Vector Machine,SVM)、boosting、流形學(xué)習(xí)以及核方法等進(jìn)行人臉識(shí)別。2009 年至 2012 年,稀疏表達(dá)(Sparse Representation)因?yàn)槠鋬?yōu)美的理論和對(duì)遮擋因素的魯棒性成為當(dāng)時(shí)的研究熱點(diǎn)。與此同時(shí),業(yè)界也基本達(dá)成共識(shí):基于人工精心設(shè)計(jì)的局部描述子進(jìn)行特征提取和子空間方法進(jìn)行特征選擇能夠取得最好的識(shí)別效果。
5)綜合多種識(shí)別方式的方法
以上幾種比較常用的人臉識(shí)別方法,我們不難看出,每一種識(shí)別方法都不能做到完美的識(shí)別率與更快的識(shí)別速度,都有著各自的優(yōu)點(diǎn)和缺點(diǎn),因此,現(xiàn)在許多研究人員則更喜歡使用多種識(shí)別方法綜合起來(lái)應(yīng)用,取各種識(shí)別方法的優(yōu)勢(shì),綜合運(yùn)用,以達(dá)到更高的識(shí)別率和識(shí)別效果。
5、活體鑒別
生物特征識(shí)別的共同問題之一就是要區(qū)別該信號(hào)是否來(lái)自于真正的生物體,比如,指紋識(shí)別系統(tǒng)需要區(qū)別帶識(shí)別的指紋是來(lái)自于人的手指還是指紋手套,人臉識(shí)別系統(tǒng)所采集到的人臉圖像,是來(lái)自于真實(shí)的人臉還是含有人臉的照片。因此,實(shí)際的人臉識(shí)別系統(tǒng)一般需要增加活體鑒別環(huán)節(jié),例如,要求人左右轉(zhuǎn)頭,眨眼睛,開開口說句話等。
五、經(jīng)典論文
1、Sirovich,L.,&Kirby,M.(1987).Low-dimensional procedure for the characterization of human faces.Josa a,4(3),519-524. 研究證明任何的特殊人臉都可以通過稱為 Eigenpictures 的坐標(biāo)系統(tǒng)來(lái)表示。Eigenpictures 是面部集合的平均協(xié)方差的本征函數(shù)。
2、Turk,M.,&Pentland,A.(1991).Eigenfaces for recognition.Journal of cognitive neuroscience, 3(1), 71-86. 研究開發(fā)了一種近實(shí)時(shí)的計(jì)算機(jī)系統(tǒng),可以定位和追蹤人的頭部,然后通過比較面部特征和已知個(gè)體的特征來(lái)識(shí)別該人。該方法將面部識(shí)別問題視為二維識(shí)別問題。識(shí)別的過程是把一副新的圖像投影到特征臉子空間,該特征空間捕捉到已知面部圖像之間的顯著變化。重要特征稱為特征臉,因?yàn)樗鼈兪敲婕奶卣飨蛄俊?/p>
3、Ojala,T.,Pietik?inen,M.,&Harwood,D.(1996).A comparative study of texture measures with classification based on featured distributions.Pattern recognition,29(1),51-59. 研究對(duì)不同的圖形紋理進(jìn)行比較,并提出了用來(lái)描述圖像紋理特征的 LBP 算子。
4、Ojala,T.,Pietikainen,M.,&Maenpaa,T.(2002).Multiresolution gray-scale and rotation invariant texture classification with local binary patterns.IEEE Transactions on pattern analysis and machine intelligence,24(7),971-987. 研究提出了一種理論上非常簡(jiǎn)單而有效的灰度和旋轉(zhuǎn)不變紋理分類方法,該方法基于局部二值模式和樣本和原型分布的非參數(shù)判別。該方法具有灰度變化穩(wěn)健、計(jì)算簡(jiǎn)單的特點(diǎn)。
5、Fisher,R.A.(1936).The use of multiple measurements in taxonomic problems.Annals of eugenics,7(2),179-188. 研究找到一種特征組合方式,以達(dá)到最大的類間離散度和最小的類內(nèi)離散度。解決方式為:在低維表示下,相同的類應(yīng)該緊緊的聚在一起,而不同的類別盡量距離越遠(yuǎn)。
6、Belhumeur,P.N.,Hespanha,J.P.,&Kriegman,D.J.(1997).Eigenfaces
vs.fisherfaces:Recognition using class specific linear projection. Yale University New Haven United States. 研究基于 Fisher 的線性判別進(jìn)行面部投影,能夠在低維子空間中產(chǎn)生良好分離的類,即使在光照和面部表情的變化較大情況下也是如此。廣泛的實(shí)驗(yàn)結(jié)果表明, 所提出的“Fisherface”方法的誤差率低于哈佛和耶魯人臉數(shù)據(jù)庫(kù)測(cè)試的特征臉技術(shù)。
六、人臉識(shí)別數(shù)據(jù)庫(kù)
1、ERET人臉數(shù)據(jù)庫(kù)
http://www.nist.gov/itl/iad/ig/colorferet.cfm
由 FERET 項(xiàng)目創(chuàng)建,此圖像集包含大量的人臉圖像,并且每幅圖中均只有一個(gè)人臉。該集中,同一個(gè)人的照片有不同表情、光照、姿態(tài)和年齡的變化。包含 1 萬(wàn)多張多姿態(tài)和光照的人臉圖像,是人臉識(shí)別領(lǐng)域應(yīng)用最廣泛的人臉數(shù)據(jù)庫(kù)之一。其中的多數(shù)人是西方人,每個(gè)人所包含的人臉圖像的變化比較單一。
2、Yale人臉數(shù)據(jù)庫(kù)
3、ORL人臉數(shù)據(jù)庫(kù)
4、CMU Multi- PIE人臉數(shù)據(jù)庫(kù)
http://www.flintbox.com/public/project/4742/
由美國(guó)卡耐基梅隆大學(xué)建立。所謂“PIE”就是姿態(tài)(Pose),光照(Illumination)和表情(Expression)的縮寫。CMU Multi-PIE 人臉數(shù)據(jù)庫(kù)是在 CMU-PIE 人臉數(shù)據(jù)庫(kù)的基礎(chǔ)上發(fā)展起來(lái)的。包含 337 位志愿者的 75000 多張多姿態(tài),光照和表情的面部圖像。其中的姿態(tài)和光照變化圖像也是在嚴(yán)格控制的條件下采集的,目前已經(jīng)逐漸成為人臉識(shí)別領(lǐng)域的一個(gè)重要的測(cè)試集合。
5、YALE人臉數(shù)據(jù)庫(kù)(美國(guó),耶魯大學(xué))
http://cvc.cs.yale.edu/cvc/projects/yalefaces/yalefaces.html
由耶魯大學(xué)計(jì)算視覺與控制中心創(chuàng)建,包含 15 位志愿者的 165 張圖片,包含光照、表情和姿態(tài)的變化。
6、YALE人臉數(shù)據(jù)庫(kù) B
https://computervisiononline.com/dataset/1105138686
包含了 10 個(gè)人的 5850 幅在 9 種姿態(tài),64 種光照條件下的圖像。其中的姿態(tài)和光照變化的圖像都是在嚴(yán)格控制的條件下采集的,主要用于光照和姿態(tài)問題的建模與分析。由于采集人數(shù)較少,該數(shù)據(jù)庫(kù)的進(jìn)一步應(yīng)用受到了比較大的限制。
7、ORL人臉數(shù)據(jù)庫(kù)
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
由英國(guó)劍橋大學(xué) AT&T 實(shí)驗(yàn)室創(chuàng)建,包含 40 人共 400 張面部圖像,部分志愿者的圖像包括了姿態(tài),表情和面部飾物的變化。該人臉庫(kù)在人臉識(shí)別研究的早期經(jīng)常被人們采用,但由于變化模式較少,多數(shù)系統(tǒng)的識(shí)別率均可以達(dá)到 90%以上,因此進(jìn)一步利用的價(jià)值已經(jīng)不大。
ORL 人臉數(shù)據(jù)庫(kù)中一個(gè)采集對(duì)象的全部樣本庫(kù)中每個(gè)采集對(duì)象包含10 幅經(jīng)過歸一化處理的灰度圖像,圖像尺寸均為 92×112 ,圖像背景為黑色。其中采集對(duì)象的面部表情和細(xì)節(jié)均有變化,例如笑與不笑、眼睛睜著或閉著以及戴或不戴眼鏡等,不同人臉樣本的姿態(tài)也有變化,其深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá) 20 度。
8、BioID人臉數(shù)據(jù)庫(kù)
https://www.bioid.com/facedb/
包含在各種光照和復(fù)雜背景下的 1521 張灰度面部圖像,眼睛位置已經(jīng)被手工標(biāo)注。
9、UMIST圖像集
由英國(guó)曼徹斯特大學(xué)建立。包括 20 個(gè)人共 564 幅圖像,每個(gè)人具有不同角度、不同姿態(tài)的多幅圖像。
10、Yale 人臉數(shù)據(jù)庫(kù)中一個(gè)采集志愿者的 10 張樣本,相比較 ORL 人臉數(shù)據(jù)庫(kù) Yale 庫(kù)中每個(gè)對(duì)象采集的樣本包含更明顯的光照、表情和姿態(tài)以及遮擋變化。
11、FERET人臉數(shù)據(jù)庫(kù)
12、年齡識(shí)別數(shù)據(jù)集IMDB-WIKI
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
包含 524230 張從 IMDB 和 Wikipedia 爬取的名人數(shù)據(jù)圖片。應(yīng)用了一個(gè)新穎的化回歸為分類的年齡算法。本質(zhì)就是在 0-100 之間的 101 類分類后,對(duì)于得到的分?jǐn)?shù)和 0-100 相乘, 并將最終結(jié)果求和,得到最終識(shí)別的年齡。
13、MIT數(shù)據(jù)庫(kù)
14、BANCA人臉數(shù)據(jù)庫(kù)
15、CAS-PEAL人臉數(shù)據(jù)庫(kù)
16、JAFE表情數(shù)據(jù)庫(kù)
17、Cohn-Kanade表情數(shù)據(jù)庫(kù)
18、MMI表情數(shù)據(jù)庫(kù)
七、技術(shù)發(fā)展方向
人臉自動(dòng)識(shí)別技術(shù)已取得了巨大的成就,隨著科技的發(fā)展,在實(shí)際應(yīng)用中仍然面臨困難,不僅要達(dá)到準(zhǔn)確、快速的檢測(cè)并分割出人臉部分,而且要有效的變化補(bǔ)償、特征描述、準(zhǔn)確的分類的效果,還需要注重和提高以下幾個(gè)方面:
1、結(jié)合三維信息:二維和三維信息融合使特征更加魯棒
2、多特征融合:?jiǎn)我惶卣麟y以應(yīng)對(duì)復(fù)雜的光照和姿態(tài)變化
3、大規(guī)模人臉比對(duì):面向海量數(shù)據(jù)的人臉比對(duì)與搜索
4、深度學(xué)習(xí):在大數(shù)據(jù)條件下充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力
5、人臉的局部和整體信息的相互結(jié)合能有效地描述人臉的特征,基于混合模型的方法值得進(jìn)一步深入研究,以便能準(zhǔn)確描述復(fù)雜的人臉模式分布。
6、多特征融合和多分類器融合的方法也是改善識(shí)別性能的一個(gè)手段。
7、由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響 ,準(zhǔn)確的人臉識(shí)別仍較困難。為了滿足自動(dòng)人臉識(shí)別技術(shù)具有實(shí)時(shí)要求,在必要時(shí)需要研究人臉與指紋、虹膜、語(yǔ)音等識(shí)別技術(shù)的融合方法。
8、3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對(duì)各種變化因素采用模擬或補(bǔ)償?shù)姆椒ň哂休^好的效果。三維人臉識(shí)別算法的選取還處于探索階段,需要在原有傳統(tǒng)識(shí)別算法的基礎(chǔ)上改進(jìn)和創(chuàng)新。
9、表面紋理識(shí)別算法是一種最新的算法 [52],有待于我們繼續(xù)學(xué)習(xí)和研究出更好的方法。
總之,人臉識(shí)別是極富挑戰(zhàn)性的課題僅僅采用一種現(xiàn)有方法難以取得良好的識(shí)別效果,如何與其它技術(shù)相結(jié)合,如何提高識(shí)別率和識(shí)別速度、減少計(jì)算量、提高魯棒性,如何采用嵌入式及硬件實(shí)現(xiàn),如何實(shí)用化都是將來(lái)值得研究的。
八、技術(shù)指標(biāo)
1、人臉檢測(cè)中的關(guān)鍵指標(biāo):例子:在攝像頭某張抓拍圖像中,一共有100張人臉,算法檢測(cè)出80張人臉,其中75張是真實(shí)人臉,5 張是把路標(biāo)誤識(shí)為人臉。
(1)檢測(cè)率:識(shí)別正確的人臉/圖中所有的人臉。檢測(cè)率越高,代表檢測(cè)模型效果越好。
?。?)誤檢率:識(shí)別錯(cuò)誤的人臉/識(shí)別出來(lái)的人臉。誤檢率越低,代表檢測(cè)模型效果越好。
(3)漏檢率:未識(shí)別出來(lái)的人臉/圖中所有的人臉。漏檢率越低,代表檢測(cè)模型效果越好。
?。?)速度:從采集圖像完成到人臉檢測(cè)完成的時(shí)間。時(shí)間越短,檢測(cè)模型效果越好。
在這個(gè)實(shí)際案例中:檢測(cè)率=75/100 誤檢率=5/80 漏檢率=(100-75)/100
2、人臉識(shí)別中的關(guān)鍵指標(biāo):1000張樣本圖片里,共600張正樣本。相似度為0.9的圖片一共100張,其中正樣本為99張。雖然0.9閾值的正確率很高,為99/100;但是0.9閾值正確輸出的數(shù)量確很少,只有99/600。這樣很容易發(fā)生漏識(shí)的情況。
(1)精確率(precision):識(shí)別為正確的樣本數(shù)/識(shí)別出來(lái)的樣本數(shù)=99/100
?。?)召回率(recall):識(shí)別為正確的樣本數(shù)/所有樣本中正確的數(shù)=99/600
(3)錯(cuò)誤接受率/認(rèn)假率/誤識(shí)率(FAR,F(xiàn)alse Accept Rate):
定義:指將身份不同的兩張照片,判別為相同身份,越低越好
FAR = NFA / NIRA
式中 NIRA 代表的是類間測(cè)試次數(shù),既不同類別間的測(cè)試次數(shù),打比方如果有1000個(gè)識(shí)別 模型,有1000個(gè)人要識(shí)別,而且每人只提供一個(gè)待識(shí)別的素材,那 NIRA=1000*(1000-1) 。NFA是錯(cuò)誤接受次數(shù)。
(4)錯(cuò)誤拒絕率/拒真率/拒識(shí)率(FRR, False Reject Rate):
定義:指將身份相同的兩張照片,判別為不同身份,越低越好
FRR = NFR / NGRA
上式中NFR是類內(nèi)測(cè)試次數(shù),既同類別內(nèi)的測(cè)試次數(shù),打比方如果有1000個(gè)識(shí)別模型, 有1000個(gè)人要識(shí)別, 而且每人只提供一個(gè)待識(shí)別的素 材,那 NIRA=1000,如果每個(gè)人提供N張圖片,那么 NIRA=N*1000 。NFR是錯(cuò)誤拒絕次數(shù)。
FAR決定了系統(tǒng)的安全性,F(xiàn)RR決定了系統(tǒng)的易用程度,在實(shí)際中,F(xiàn)AR對(duì)應(yīng)的風(fēng)險(xiǎn)遠(yuǎn)遠(yuǎn)高于FRR,因此,生物識(shí)別系統(tǒng)中,會(huì)將FAR設(shè)置為一個(gè)非常低的范圍,如萬(wàn)分之一甚至百萬(wàn)分之一,在FAR固定的條件下,F(xiàn)RR低于5%,這樣的系統(tǒng)才有實(shí)用價(jià)值。
九、存在的問題:
1、信息泄露
2、1:N檢索或同時(shí)作業(yè)N:N檢索
3、動(dòng)態(tài)抓取
4、性別模糊
5、年齡變化
6、信息孤島
7、光照、姿態(tài)、遮擋
8、相似性
9、圖片質(zhì)量問題
十、訓(xùn)練測(cè)試相關(guān)問題
1、欠擬合
定義:模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地?cái)M合數(shù)據(jù)
解決方法:
?。?)添加其他特征項(xiàng),有時(shí)候我們模型出現(xiàn)欠擬合的時(shí)候是因?yàn)樘卣黜?xiàng)不夠?qū)е碌?,可以添加其他特征?xiàng)來(lái)很好地解決。例如,“組合”、“泛化”、“相關(guān)性”三類特征是特征添加的重要手段,無(wú)論在什么場(chǎng)景,都可以照葫蘆畫瓢,總會(huì)得到意想不到的效果。
(2)添加多項(xiàng)式特征,這個(gè)在機(jī)器學(xué)習(xí)算法里面用的很普遍,例如將線性模型通過添加二次項(xiàng)或者三次項(xiàng)使模型泛化能力更強(qiáng)。例如上面的圖片的例子。
?。?)減少正則化參數(shù),正則化的目的是用來(lái)防止過擬合的,但是現(xiàn)在模型出現(xiàn)了欠擬合,則需要減少正則化參數(shù)。
?。?)嘗試非線性模型,比如核SVM 、決策樹、DNN等模型。
2、過擬合
定義:模型把數(shù)據(jù)學(xué)習(xí)的太徹底,以至于把噪聲數(shù)據(jù)的特征也學(xué)習(xí)到了,這樣就會(huì)導(dǎo)致在后期測(cè)試的時(shí)候不能夠很好地識(shí)別數(shù)據(jù),即不能正確的分類,模型泛化能力太差。例如下面的例子。
解決方法:
?。?)從產(chǎn)品角度
1)重新清洗數(shù)據(jù),導(dǎo)致過擬合的一個(gè)原因也有可能是數(shù)據(jù)不純導(dǎo)致的,噪音太多影響到模型效果,如果出現(xiàn)了過擬合就需要我們重新清洗數(shù)據(jù)。
2)增大數(shù)據(jù)的訓(xùn)練量,還有一個(gè)原因就是我們用于訓(xùn)練的數(shù)據(jù)量太小導(dǎo)致的,訓(xùn)練數(shù)據(jù)占總數(shù)據(jù)的比例過小。
?。?)從算法角度
1)交叉檢驗(yàn),通過交叉檢驗(yàn)得到較優(yōu)的模型參數(shù);
2)特征選擇,減少特征數(shù)或使用較少的特征組合,對(duì)于按區(qū)間離散化的特征,增大劃分的區(qū)間;
3)正則化,常用的有 L1、L2 正則。而且 L1正則還可以自動(dòng)進(jìn)行特征選擇;
4)如果有正則項(xiàng)則可以考慮增大正則項(xiàng)參數(shù) lambda;
5)增加訓(xùn)練數(shù)據(jù)可以有限的避免過擬合;
6)Bagging ,將多個(gè)弱學(xué)習(xí)器Bagging 一下效果會(huì)好很多,比如隨機(jī)森林等.
7)標(biāo)注流程中遇到的問題