美國(guó)留學(xué)選擇什么專業(yè)好?留學(xué)美國(guó)熱門專業(yè)推薦
2019-06-26
更新時(shí)間:2024-03-19 12:45作者:小樂
雷鋒網(wǎng)AI技術(shù)評(píng)論注:本文作者羅浩,浙江大學(xué)博士生。本文系羅浩為雷鋒網(wǎng)AI技術(shù)評(píng)論獨(dú)家撰稿,未經(jīng)許可不得轉(zhuǎn)載。
3.基于局部特征的ReID方法。在早期的ReID研究中,大家主要關(guān)注的是全局特征,即利用整張圖像來獲取特征向量來進(jìn)行圖像檢索。但后來大家逐漸發(fā)現(xiàn)全局特征遇到了瓶頸,于是開始逐漸研究局部特征。提取局部特征常用的思路包括圖像切片、骨骼關(guān)鍵點(diǎn)定位、姿態(tài)校正等。
(1)圖像切片是一種非常常見的提取局部特征的方法[12]。如下圖所示,圖片被垂直分成了幾個(gè)部分。由于垂直切割更符合我們對(duì)人體識(shí)別的直觀體驗(yàn),因此水平切割很少用于行人重識(shí)別領(lǐng)域。
之后,幾個(gè)分割的圖像塊按順序發(fā)送到長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),最終的特征結(jié)合了所有圖像塊的局部特征。但這個(gè)缺點(diǎn)是對(duì)圖像對(duì)齊的要求比較高。如果兩幅圖像上下沒有對(duì)齊,那么頭部和上半身之間很可能會(huì)出現(xiàn)反差,從而導(dǎo)致模型做出錯(cuò)誤的判斷。
(2)為了解決圖像未對(duì)齊時(shí)手動(dòng)圖像切片失敗的問題,一些論文利用一些先驗(yàn)知識(shí)先對(duì)齊行人。這些先驗(yàn)知識(shí)主要是預(yù)先訓(xùn)練的人體姿勢(shì)(Pose)和骨骼關(guān)鍵點(diǎn)(Skeleton)。 ) 模型。論文[13]首先使用姿態(tài)估計(jì)模型來估計(jì)行人的關(guān)鍵點(diǎn),然后使用仿射變換來對(duì)齊相同的關(guān)鍵點(diǎn)。如下圖所示,一個(gè)行人通常被分為14個(gè)關(guān)鍵點(diǎn)。這14個(gè)關(guān)鍵點(diǎn)將人體結(jié)果分為幾個(gè)區(qū)域。為了提取不同尺度下的局部特征,作者設(shè)置了三種不同的PoseBox組合。之后,將三張PoseBox校正后的圖片和原始校正后的圖片發(fā)送到網(wǎng)絡(luò)中提取特征。該特征包含全局信息和局部信息。特別提出,如果這種仿射變換可以在進(jìn)入網(wǎng)絡(luò)之前的預(yù)處理中進(jìn)行,那么也可以在輸入到網(wǎng)絡(luò)之后進(jìn)行。如果是后者,則需要對(duì)仿射變換進(jìn)行改進(jìn),因?yàn)閭鹘y(tǒng)的徑向變換是不可微的。為了使網(wǎng)絡(luò)可訓(xùn)練,需要引入可微的近似輻射變化,本文不再詳細(xì)介紹相關(guān)知識(shí)。
(3)CVPR2017工作Spindle Net[14]也使用14個(gè)人體關(guān)鍵點(diǎn)來提取局部特征。與論文[12]不同的是,Spindle Net沒有使用仿射變換來對(duì)齊局部圖像區(qū)域,而是直接使用這些關(guān)鍵點(diǎn)來提取感興趣區(qū)域(ROI)。 Spindle Net網(wǎng)絡(luò)如下圖所示。首先,通過骨骼關(guān)鍵點(diǎn)提取網(wǎng)絡(luò)提取14個(gè)人體關(guān)鍵點(diǎn),然后利用這些關(guān)鍵點(diǎn)提取7個(gè)人體結(jié)構(gòu)ROI。網(wǎng)絡(luò)中用于特征提取的所有CNN(以橙色表示)參數(shù)都是共享的。該CNN 分為三個(gè)線性子網(wǎng)絡(luò)FEN-C1、FEN-C2 和FEN-C3。對(duì)于輸入的行人圖片,有一個(gè)預(yù)訓(xùn)練的骨骼關(guān)鍵點(diǎn)提取CNN(以藍(lán)色表示)獲得14個(gè)人體關(guān)鍵點(diǎn),從而獲得7個(gè)ROI區(qū)域,包括三個(gè)大區(qū)域(頭部、上半身、下半身)和四肢的四個(gè)小區(qū)域。這7個(gè)ROI區(qū)域和原始圖像進(jìn)入同一個(gè)CNN網(wǎng)絡(luò)來提取特征。原始圖像經(jīng)過完整的CNN以獲得全局特征。三個(gè)大區(qū)域經(jīng)過FEN-C2和FEN-C3子網(wǎng)絡(luò)以獲得三個(gè)局部特征。四個(gè)肢體區(qū)域通過FEN-C3子網(wǎng)絡(luò)獲得四個(gè)局部特征。然后,如圖所示,將這8個(gè)特征在不同尺度上進(jìn)行連接,最終得到融合多個(gè)尺度下的全局特征和局部特征的行人重識(shí)別特征。
(4)論文[15]提出了一種全局-局部對(duì)齊特征描述符(GLAD)來解決行人姿勢(shì)變化的問題。與Spindle Net類似,GLAD利用提取的人體關(guān)鍵點(diǎn)將圖像分為三個(gè)部分:頭部、上半身和下半身。然后將整幅圖像和三幅局部圖像輸入到參數(shù)共享的CNN網(wǎng)絡(luò)中,最終提取的特征結(jié)合了全局特征和局部特征。為了適應(yīng)不同分辨率大小的圖像輸入,網(wǎng)絡(luò)使用全局平均池化(GAP)來提取各自的特征。與Spindle Net 的細(xì)微差別在于,四張輸入圖像各自計(jì)算相應(yīng)的損失,而不是將它們合并為一個(gè)特征來計(jì)算總損失。
(5)上述所有局部特征對(duì)齊方法都需要額外的骨架關(guān)鍵點(diǎn)或姿態(tài)估計(jì)模型。訓(xùn)練一個(gè)實(shí)用的模型需要收集足夠的訓(xùn)練數(shù)據(jù),這是非常昂貴的。為了解決上述問題,AlignedReID[16]提出了一種基于SP距離的自動(dòng)對(duì)齊模型,無需額外信息即可自動(dòng)對(duì)齊局部特征。采用的方法是動(dòng)態(tài)對(duì)齊算法,也稱為最短路徑距離。這個(gè)最短距離就是自動(dòng)計(jì)算的本地距離。
該局部距離可以與任何全局距離方法結(jié)合。論文[15]選擇TriHard loss作為基線實(shí)驗(yàn)。整個(gè)網(wǎng)絡(luò)最終的結(jié)構(gòu)如下圖所示。具體細(xì)節(jié)請(qǐng)參見原文。
4.基于視頻序列的ReID方法目前,單幀ReID研究仍然是主流,因?yàn)閿?shù)據(jù)集相對(duì)較小,即使在單GPU PC上進(jìn)行實(shí)驗(yàn)也不會(huì)花費(fèi)太長(zhǎng)時(shí)間。然而,通常單幀圖像的信息是有限的,因此很多工作集中在使用視頻序列進(jìn)行行人重新識(shí)別方法[17-24]?;谝曨l序列的方法之間的主要區(qū)別在于,這些方法不僅考慮圖像的內(nèi)容信息,還考慮幀之間的運(yùn)動(dòng)信息。
基于單幀圖像的方法主要思想是利用CNN提取圖像的空間特征,而基于視頻序列的方法主要思想是利用CNN提取空間特征并利用循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)(RNN)來提取時(shí)間特征。上圖就是一個(gè)非常典型的想法。網(wǎng)絡(luò)輸入是圖像序列。每幅圖像通過共享的CNN來提取圖像空間內(nèi)容特征,然后將這些特征向量輸入到RNN網(wǎng)絡(luò)以提取最終的特征。最終的特征結(jié)合了單幀圖像的內(nèi)容特征和幀間的運(yùn)動(dòng)特征。該特征用于替代之前單幀方法的圖像特征來訓(xùn)練網(wǎng)絡(luò)。
視頻序列類的代表性方法之一是累積運(yùn)動(dòng)上下文網(wǎng)絡(luò)(AMOC)[23]。 AMOC輸入包括原始圖像序列和提取的光流序列。通常需要使用傳統(tǒng)的光流提取算法來提取光流信息,但這些算法計(jì)算耗時(shí)且與深度學(xué)習(xí)網(wǎng)絡(luò)不兼容。為了獲得一個(gè)自動(dòng)提取光流的網(wǎng)絡(luò),作者首先訓(xùn)練了一個(gè)運(yùn)動(dòng)信息網(wǎng)絡(luò)(Motion network,Moti Nets)。該運(yùn)動(dòng)網(wǎng)絡(luò)的輸入是原始圖像序列,標(biāo)簽是傳統(tǒng)方法提取的光流序列。如下圖所示,第一行顯示原始圖像序列,第二行顯示提取的光流序列。該網(wǎng)絡(luò)具有三個(gè)光流預(yù)測(cè)輸出,即Pred1、Pred2和Pred3。這三個(gè)輸出可以預(yù)測(cè)三個(gè)不同尺度的光流圖。最后,網(wǎng)絡(luò)融合三個(gè)尺度的光流預(yù)測(cè)輸出,得到最終的光流圖,預(yù)測(cè)的光流序列顯示在第三行。通過最小化預(yù)測(cè)光流圖和提取光流圖之間的誤差,網(wǎng)絡(luò)可以提取更準(zhǔn)確的運(yùn)動(dòng)特征。
AMOC的核心思想是,網(wǎng)絡(luò)除了提取序列圖像的特征外,還必須提取運(yùn)動(dòng)光流的運(yùn)動(dòng)特征。網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示。 AMOC有兩個(gè)子網(wǎng)絡(luò):空間網(wǎng)絡(luò)(Spat Nets)和運(yùn)動(dòng)信息網(wǎng)絡(luò)。圖像序列的每一幀被輸入到Spat Nets 以提取圖像的全局內(nèi)容特征。相鄰的兩個(gè)幀將被發(fā)送到Moti Nets 以提取光流圖特征。然后將空間特征和光流特征融合并輸入到RNN 中以提取時(shí)間特征。通過AMOC網(wǎng)絡(luò),可以提取每個(gè)圖像序列結(jié)合內(nèi)容信息和運(yùn)動(dòng)信息的特征。該網(wǎng)絡(luò)使用分類損失和對(duì)比損失來訓(xùn)練模型。結(jié)合運(yùn)動(dòng)信息的序列圖像特征可以提高行人重新識(shí)別的準(zhǔn)確性。
論文[24]從另一個(gè)角度展示了多幀序列對(duì)于彌補(bǔ)單幀信息不足的作用。目前,大多數(shù)基于視頻的ReID方法仍然無論情況如何都將序列信息交給網(wǎng)絡(luò),讓網(wǎng)絡(luò)自己學(xué)習(xí)有用的信息。信息,沒有直觀的解釋為什么多幀信息有用。論文[24]明確指出,當(dāng)單幀圖像遇到遮擋等情況時(shí),可以利用多幀的其他信息來彌補(bǔ),直接誘導(dǎo)網(wǎng)絡(luò)對(duì)圖像進(jìn)行質(zhì)量判斷,降低重要性質(zhì)量較差的框架?;ㄙM(fèi)。
如上圖所示,文章認(rèn)為當(dāng)遮擋嚴(yán)重時(shí),使用通用池化會(huì)導(dǎo)致注意力圖惡化,遮擋區(qū)域的很多特征會(huì)丟失。通過使用論文的方法對(duì)每一幀進(jìn)行質(zhì)量判斷,可以關(guān)注那些相對(duì)完整的幀,使注意力圖更加完整。關(guān)鍵的實(shí)現(xiàn)是使用姿態(tài)估計(jì)網(wǎng)絡(luò)。這篇論文被稱為地標(biāo)檢測(cè)器。當(dāng)?shù)貥?biāo)不完整時(shí),證明存在遮擋,圖像質(zhì)量會(huì)惡化。之后,將位姿特征圖和全局特征圖同時(shí)輸入到網(wǎng)絡(luò)中,讓網(wǎng)絡(luò)對(duì)每一幀進(jìn)行權(quán)重判斷,為高質(zhì)量的幀分配較高的權(quán)重,然后進(jìn)行線性疊加在特征圖上。這個(gè)想法相對(duì)簡(jiǎn)單,但仍然很有說服力。
5、基于GAN映射的ReID方法
ReID一個(gè)非常大的問題就是數(shù)據(jù)獲取困難。截至CVPR18 截止日期,最大的ReID 數(shù)據(jù)集只有幾千個(gè)ID 和幾萬張圖片(假設(shè)序列只算一張)。因此,在ICCV17 GAN建圖和ReID挖了第一個(gè)坑之后,大量的GAN工作涌現(xiàn),特別是CVPR18截止日期后,arxiv上出現(xiàn)了幾篇好論文。
論文[25]是第一篇使用GAN進(jìn)行ReID的文章,發(fā)表在ICCV17會(huì)議上。論文雖然比較簡(jiǎn)單,但是作為挖坑鼻祖卻帶來了一系列好作品。如下圖,本文生成的圖像質(zhì)量并不是很高,甚至可以用慘不忍睹來形容。另一個(gè)問題是,由于圖像是隨機(jī)生成的,因此沒有標(biāo)簽可以使用。為了解決這個(gè)問題,論文提出了一種標(biāo)簽平滑方法。實(shí)際操作也很簡(jiǎn)單,就是標(biāo)簽向量每個(gè)元素的值都一樣,這樣和就是1。反正你也分不清是屬于哪個(gè)人的,就一碗水。生成的圖像作為訓(xùn)練數(shù)據(jù)添加到訓(xùn)練中。由于當(dāng)時(shí)的基線沒有現(xiàn)在那么高,所以效果還是比較明顯的。至少有了更多的數(shù)據(jù),過度擬合就可以避免很多。
論文[26]是前一篇論文的增強(qiáng)版本,來自同一研究小組。上一篇文章中的GAN圖還是隨機(jī)的,但在這篇文章中它變成了可控生成圖。 ReID 的一個(gè)問題是不同的攝像頭存在偏差。這種偏差可能來自光線和角度等多種因素。為了克服這個(gè)問題,論文使用GAN 將圖片從一臺(tái)相機(jī)傳輸?shù)搅硪慌_(tái)相機(jī)。 GAN還是一個(gè)比較正常的應(yīng)用。與之前的工作不同,本文生成的圖是可以控制的,這意味著ID是明確的。因此,標(biāo)簽平滑也得到了改進(jìn),公式如下:
在
是ID 的數(shù)量。
是手動(dòng)設(shè)置的平滑參數(shù),當(dāng)
它是一個(gè)普通的one-hot向量。不過,由于是創(chuàng)建的圖片,所以希望標(biāo)簽不要那么硬,所以我加了一個(gè)平滑參數(shù)。實(shí)驗(yàn)表明這種方法效果很好。最終整體網(wǎng)絡(luò)框架如下:
除了相機(jī)偏差之外,ReID 的另一個(gè)問題是數(shù)據(jù)集中存在偏差。這種偏差很大一部分是環(huán)境造成的。為了克服這種偏差,論文[27]使用GAN將行人從一個(gè)數(shù)據(jù)集遷移到另一個(gè)數(shù)據(jù)集。為了實(shí)現(xiàn)這種遷移,對(duì)GAN損失進(jìn)行了稍微設(shè)計(jì)。一個(gè)是前景的絕對(duì)誤差損失,另一個(gè)是正常的鑒別器損失。判別器損失用于確定生成的圖像屬于哪個(gè)域,前景損失是為了保證行人前景盡可能真實(shí)且不變。這個(gè)前景mask是使用PSPnet得到的,效果如下圖。論文的另一個(gè)貢獻(xiàn)是提出了一個(gè)MSMT17數(shù)據(jù)集,這是一個(gè)相當(dāng)大的數(shù)據(jù)集,希望能夠盡快公開。
ReID的困難之一是姿勢(shì)的差異。為了克服這個(gè)問題,論文[28]使用GAN創(chuàng)建了一系列標(biāo)準(zhǔn)姿勢(shì)圖片。論文一共提取了8個(gè)pose,基本覆蓋了所有角度。每張圖片都會(huì)生成這樣標(biāo)準(zhǔn)的8個(gè)姿勢(shì),這樣姿勢(shì)不同的問題就解決了。最后對(duì)這些圖像的特征進(jìn)行平均池化,得到最終的特征。該特征整合了每個(gè)姿態(tài)的信息,很好地解決了姿態(tài)偏差問題。這項(xiàng)工作無論是在生成的圖表還是實(shí)驗(yàn)結(jié)果方面都非常好。這項(xiàng)工作將單查詢變成了多查詢,但你無法反駁它,因?yàn)樗袌D都是由GAN 生成的。除了生成這些圖所需的額外時(shí)間開銷之外,沒有使用任何額外的數(shù)據(jù)信息。當(dāng)然,這項(xiàng)工作還需要一個(gè)預(yù)先訓(xùn)練的姿勢(shì)估計(jì)網(wǎng)絡(luò)來進(jìn)行姿勢(shì)提取。
總的來說,GAN映射是為了從某種角度解決ReID的困難而設(shè)計(jì)的。 GAN 可以彌補(bǔ)任何不足。不得不說GAN真是一個(gè)強(qiáng)大的東西。
后記:以上是基于深度學(xué)習(xí)的行人重識(shí)別研究綜述。選取了一些有代表性的論文,希望能夠幫助剛進(jìn)入該領(lǐng)域的人快速了解近年來的工作。當(dāng)然,還有很多優(yōu)秀的作品沒有收錄。 ICCV17 上有十幾篇ReID 文章。這幾年總共應(yīng)該有幾百篇文章了。