红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

網(wǎng)站首頁(yè)
手機(jī)版

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述(下)

更新時(shí)間:2024-03-19 12:45作者:小樂

雷鋒網(wǎng)AI技術(shù)評(píng)論注:本文作者羅浩,浙江大學(xué)博士生。本文系羅浩為雷鋒網(wǎng)AI技術(shù)評(píng)論獨(dú)家撰稿,未經(jīng)許可不得轉(zhuǎn)載。

3.基于局部特征的ReID方法。在早期的ReID研究中,大家主要關(guān)注的是全局特征,即利用整張圖像來獲取特征向量來進(jìn)行圖像檢索。但后來大家逐漸發(fā)現(xiàn)全局特征遇到了瓶頸,于是開始逐漸研究局部特征。提取局部特征常用的思路包括圖像切片、骨骼關(guān)鍵點(diǎn)定位、姿態(tài)校正等。

(1)圖像切片是一種非常常見的提取局部特征的方法[12]。如下圖所示,圖片被垂直分成了幾個(gè)部分。由于垂直切割更符合我們對(duì)人體識(shí)別的直觀體驗(yàn),因此水平切割很少用于行人重識(shí)別領(lǐng)域。

之后,幾個(gè)分割的圖像塊按順序發(fā)送到長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),最終的特征結(jié)合了所有圖像塊的局部特征。但這個(gè)缺點(diǎn)是對(duì)圖像對(duì)齊的要求比較高。如果兩幅圖像上下沒有對(duì)齊,那么頭部和上半身之間很可能會(huì)出現(xiàn)反差,從而導(dǎo)致模型做出錯(cuò)誤的判斷。

(2)為了解決圖像未對(duì)齊時(shí)手動(dòng)圖像切片失敗的問題,一些論文利用一些先驗(yàn)知識(shí)先對(duì)齊行人。這些先驗(yàn)知識(shí)主要是預(yù)先訓(xùn)練的人體姿勢(shì)(Pose)和骨骼關(guān)鍵點(diǎn)(Skeleton)。 ) 模型。論文[13]首先使用姿態(tài)估計(jì)模型來估計(jì)行人的關(guān)鍵點(diǎn),然后使用仿射變換來對(duì)齊相同的關(guān)鍵點(diǎn)。如下圖所示,一個(gè)行人通常被分為14個(gè)關(guān)鍵點(diǎn)。這14個(gè)關(guān)鍵點(diǎn)將人體結(jié)果分為幾個(gè)區(qū)域。為了提取不同尺度下的局部特征,作者設(shè)置了三種不同的PoseBox組合。之后,將三張PoseBox校正后的圖片和原始校正后的圖片發(fā)送到網(wǎng)絡(luò)中提取特征。該特征包含全局信息和局部信息。特別提出,如果這種仿射變換可以在進(jìn)入網(wǎng)絡(luò)之前的預(yù)處理中進(jìn)行,那么也可以在輸入到網(wǎng)絡(luò)之后進(jìn)行。如果是后者,則需要對(duì)仿射變換進(jìn)行改進(jìn),因?yàn)閭鹘y(tǒng)的徑向變換是不可微的。為了使網(wǎng)絡(luò)可訓(xùn)練,需要引入可微的近似輻射變化,本文不再詳細(xì)介紹相關(guān)知識(shí)。

(3)CVPR2017工作Spindle Net[14]也使用14個(gè)人體關(guān)鍵點(diǎn)來提取局部特征。與論文[12]不同的是,Spindle Net沒有使用仿射變換來對(duì)齊局部圖像區(qū)域,而是直接使用這些關(guān)鍵點(diǎn)來提取感興趣區(qū)域(ROI)。 Spindle Net網(wǎng)絡(luò)如下圖所示。首先,通過骨骼關(guān)鍵點(diǎn)提取網(wǎng)絡(luò)提取14個(gè)人體關(guān)鍵點(diǎn),然后利用這些關(guān)鍵點(diǎn)提取7個(gè)人體結(jié)構(gòu)ROI。網(wǎng)絡(luò)中用于特征提取的所有CNN(以橙色表示)參數(shù)都是共享的。該CNN 分為三個(gè)線性子網(wǎng)絡(luò)FEN-C1、FEN-C2 和FEN-C3。對(duì)于輸入的行人圖片,有一個(gè)預(yù)訓(xùn)練的骨骼關(guān)鍵點(diǎn)提取CNN(以藍(lán)色表示)獲得14個(gè)人體關(guān)鍵點(diǎn),從而獲得7個(gè)ROI區(qū)域,包括三個(gè)大區(qū)域(頭部、上半身、下半身)和四肢的四個(gè)小區(qū)域。這7個(gè)ROI區(qū)域和原始圖像進(jìn)入同一個(gè)CNN網(wǎng)絡(luò)來提取特征。原始圖像經(jīng)過完整的CNN以獲得全局特征。三個(gè)大區(qū)域經(jīng)過FEN-C2和FEN-C3子網(wǎng)絡(luò)以獲得三個(gè)局部特征。四個(gè)肢體區(qū)域通過FEN-C3子網(wǎng)絡(luò)獲得四個(gè)局部特征。然后,如圖所示,將這8個(gè)特征在不同尺度上進(jìn)行連接,最終得到融合多個(gè)尺度下的全局特征和局部特征的行人重識(shí)別特征。

(4)論文[15]提出了一種全局-局部對(duì)齊特征描述符(GLAD)來解決行人姿勢(shì)變化的問題。與Spindle Net類似,GLAD利用提取的人體關(guān)鍵點(diǎn)將圖像分為三個(gè)部分:頭部、上半身和下半身。然后將整幅圖像和三幅局部圖像輸入到參數(shù)共享的CNN網(wǎng)絡(luò)中,最終提取的特征結(jié)合了全局特征和局部特征。為了適應(yīng)不同分辨率大小的圖像輸入,網(wǎng)絡(luò)使用全局平均池化(GAP)來提取各自的特征。與Spindle Net 的細(xì)微差別在于,四張輸入圖像各自計(jì)算相應(yīng)的損失,而不是將它們合并為一個(gè)特征來計(jì)算總損失。

(5)上述所有局部特征對(duì)齊方法都需要額外的骨架關(guān)鍵點(diǎn)或姿態(tài)估計(jì)模型。訓(xùn)練一個(gè)實(shí)用的模型需要收集足夠的訓(xùn)練數(shù)據(jù),這是非常昂貴的。為了解決上述問題,AlignedReID[16]提出了一種基于SP距離的自動(dòng)對(duì)齊模型,無需額外信息即可自動(dòng)對(duì)齊局部特征。采用的方法是動(dòng)態(tài)對(duì)齊算法,也稱為最短路徑距離。這個(gè)最短距離就是自動(dòng)計(jì)算的本地距離。

該局部距離可以與任何全局距離方法結(jié)合。論文[15]選擇TriHard loss作為基線實(shí)驗(yàn)。整個(gè)網(wǎng)絡(luò)最終的結(jié)構(gòu)如下圖所示。具體細(xì)節(jié)請(qǐng)參見原文。

4.基于視頻序列的ReID方法目前,單幀ReID研究仍然是主流,因?yàn)閿?shù)據(jù)集相對(duì)較小,即使在單GPU PC上進(jìn)行實(shí)驗(yàn)也不會(huì)花費(fèi)太長(zhǎng)時(shí)間。然而,通常單幀圖像的信息是有限的,因此很多工作集中在使用視頻序列進(jìn)行行人重新識(shí)別方法[17-24]?;谝曨l序列的方法之間的主要區(qū)別在于,這些方法不僅考慮圖像的內(nèi)容信息,還考慮幀之間的運(yùn)動(dòng)信息。

基于單幀圖像的方法主要思想是利用CNN提取圖像的空間特征,而基于視頻序列的方法主要思想是利用CNN提取空間特征并利用循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)(RNN)來提取時(shí)間特征。上圖就是一個(gè)非常典型的想法。網(wǎng)絡(luò)輸入是圖像序列。每幅圖像通過共享的CNN來提取圖像空間內(nèi)容特征,然后將這些特征向量輸入到RNN網(wǎng)絡(luò)以提取最終的特征。最終的特征結(jié)合了單幀圖像的內(nèi)容特征和幀間的運(yùn)動(dòng)特征。該特征用于替代之前單幀方法的圖像特征來訓(xùn)練網(wǎng)絡(luò)。

視頻序列類的代表性方法之一是累積運(yùn)動(dòng)上下文網(wǎng)絡(luò)(AMOC)[23]。 AMOC輸入包括原始圖像序列和提取的光流序列。通常需要使用傳統(tǒng)的光流提取算法來提取光流信息,但這些算法計(jì)算耗時(shí)且與深度學(xué)習(xí)網(wǎng)絡(luò)不兼容。為了獲得一個(gè)自動(dòng)提取光流的網(wǎng)絡(luò),作者首先訓(xùn)練了一個(gè)運(yùn)動(dòng)信息網(wǎng)絡(luò)(Motion network,Moti Nets)。該運(yùn)動(dòng)網(wǎng)絡(luò)的輸入是原始圖像序列,標(biāo)簽是傳統(tǒng)方法提取的光流序列。如下圖所示,第一行顯示原始圖像序列,第二行顯示提取的光流序列。該網(wǎng)絡(luò)具有三個(gè)光流預(yù)測(cè)輸出,即Pred1、Pred2和Pred3。這三個(gè)輸出可以預(yù)測(cè)三個(gè)不同尺度的光流圖。最后,網(wǎng)絡(luò)融合三個(gè)尺度的光流預(yù)測(cè)輸出,得到最終的光流圖,預(yù)測(cè)的光流序列顯示在第三行。通過最小化預(yù)測(cè)光流圖和提取光流圖之間的誤差,網(wǎng)絡(luò)可以提取更準(zhǔn)確的運(yùn)動(dòng)特征。

AMOC的核心思想是,網(wǎng)絡(luò)除了提取序列圖像的特征外,還必須提取運(yùn)動(dòng)光流的運(yùn)動(dòng)特征。網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示。 AMOC有兩個(gè)子網(wǎng)絡(luò):空間網(wǎng)絡(luò)(Spat Nets)和運(yùn)動(dòng)信息網(wǎng)絡(luò)。圖像序列的每一幀被輸入到Spat Nets 以提取圖像的全局內(nèi)容特征。相鄰的兩個(gè)幀將被發(fā)送到Moti Nets 以提取光流圖特征。然后將空間特征和光流特征融合并輸入到RNN 中以提取時(shí)間特征。通過AMOC網(wǎng)絡(luò),可以提取每個(gè)圖像序列結(jié)合內(nèi)容信息和運(yùn)動(dòng)信息的特征。該網(wǎng)絡(luò)使用分類損失和對(duì)比損失來訓(xùn)練模型。結(jié)合運(yùn)動(dòng)信息的序列圖像特征可以提高行人重新識(shí)別的準(zhǔn)確性。

論文[24]從另一個(gè)角度展示了多幀序列對(duì)于彌補(bǔ)單幀信息不足的作用。目前,大多數(shù)基于視頻的ReID方法仍然無論情況如何都將序列信息交給網(wǎng)絡(luò),讓網(wǎng)絡(luò)自己學(xué)習(xí)有用的信息。信息,沒有直觀的解釋為什么多幀信息有用。論文[24]明確指出,當(dāng)單幀圖像遇到遮擋等情況時(shí),可以利用多幀的其他信息來彌補(bǔ),直接誘導(dǎo)網(wǎng)絡(luò)對(duì)圖像進(jìn)行質(zhì)量判斷,降低重要性質(zhì)量較差的框架?;ㄙM(fèi)。

如上圖所示,文章認(rèn)為當(dāng)遮擋嚴(yán)重時(shí),使用通用池化會(huì)導(dǎo)致注意力圖惡化,遮擋區(qū)域的很多特征會(huì)丟失。通過使用論文的方法對(duì)每一幀進(jìn)行質(zhì)量判斷,可以關(guān)注那些相對(duì)完整的幀,使注意力圖更加完整。關(guān)鍵的實(shí)現(xiàn)是使用姿態(tài)估計(jì)網(wǎng)絡(luò)。這篇論文被稱為地標(biāo)檢測(cè)器。當(dāng)?shù)貥?biāo)不完整時(shí),證明存在遮擋,圖像質(zhì)量會(huì)惡化。之后,將位姿特征圖和全局特征圖同時(shí)輸入到網(wǎng)絡(luò)中,讓網(wǎng)絡(luò)對(duì)每一幀進(jìn)行權(quán)重判斷,為高質(zhì)量的幀分配較高的權(quán)重,然后進(jìn)行線性疊加在特征圖上。這個(gè)想法相對(duì)簡(jiǎn)單,但仍然很有說服力。

5、基于GAN映射的ReID方法

ReID一個(gè)非常大的問題就是數(shù)據(jù)獲取困難。截至CVPR18 截止日期,最大的ReID 數(shù)據(jù)集只有幾千個(gè)ID 和幾萬張圖片(假設(shè)序列只算一張)。因此,在ICCV17 GAN建圖和ReID挖了第一個(gè)坑之后,大量的GAN工作涌現(xiàn),特別是CVPR18截止日期后,arxiv上出現(xiàn)了幾篇好論文。

論文[25]是第一篇使用GAN進(jìn)行ReID的文章,發(fā)表在ICCV17會(huì)議上。論文雖然比較簡(jiǎn)單,但是作為挖坑鼻祖卻帶來了一系列好作品。如下圖,本文生成的圖像質(zhì)量并不是很高,甚至可以用慘不忍睹來形容。另一個(gè)問題是,由于圖像是隨機(jī)生成的,因此沒有標(biāo)簽可以使用。為了解決這個(gè)問題,論文提出了一種標(biāo)簽平滑方法。實(shí)際操作也很簡(jiǎn)單,就是標(biāo)簽向量每個(gè)元素的值都一樣,這樣和就是1。反正你也分不清是屬于哪個(gè)人的,就一碗水。生成的圖像作為訓(xùn)練數(shù)據(jù)添加到訓(xùn)練中。由于當(dāng)時(shí)的基線沒有現(xiàn)在那么高,所以效果還是比較明顯的。至少有了更多的數(shù)據(jù),過度擬合就可以避免很多。

論文[26]是前一篇論文的增強(qiáng)版本,來自同一研究小組。上一篇文章中的GAN圖還是隨機(jī)的,但在這篇文章中它變成了可控生成圖。 ReID 的一個(gè)問題是不同的攝像頭存在偏差。這種偏差可能來自光線和角度等多種因素。為了克服這個(gè)問題,論文使用GAN 將圖片從一臺(tái)相機(jī)傳輸?shù)搅硪慌_(tái)相機(jī)。 GAN還是一個(gè)比較正常的應(yīng)用。與之前的工作不同,本文生成的圖是可以控制的,這意味著ID是明確的。因此,標(biāo)簽平滑也得到了改進(jìn),公式如下:

是ID 的數(shù)量。

是手動(dòng)設(shè)置的平滑參數(shù),當(dāng)

它是一個(gè)普通的one-hot向量。不過,由于是創(chuàng)建的圖片,所以希望標(biāo)簽不要那么硬,所以我加了一個(gè)平滑參數(shù)。實(shí)驗(yàn)表明這種方法效果很好。最終整體網(wǎng)絡(luò)框架如下:

除了相機(jī)偏差之外,ReID 的另一個(gè)問題是數(shù)據(jù)集中存在偏差。這種偏差很大一部分是環(huán)境造成的。為了克服這種偏差,論文[27]使用GAN將行人從一個(gè)數(shù)據(jù)集遷移到另一個(gè)數(shù)據(jù)集。為了實(shí)現(xiàn)這種遷移,對(duì)GAN損失進(jìn)行了稍微設(shè)計(jì)。一個(gè)是前景的絕對(duì)誤差損失,另一個(gè)是正常的鑒別器損失。判別器損失用于確定生成的圖像屬于哪個(gè)域,前景損失是為了保證行人前景盡可能真實(shí)且不變。這個(gè)前景mask是使用PSPnet得到的,效果如下圖。論文的另一個(gè)貢獻(xiàn)是提出了一個(gè)MSMT17數(shù)據(jù)集,這是一個(gè)相當(dāng)大的數(shù)據(jù)集,希望能夠盡快公開。

ReID的困難之一是姿勢(shì)的差異。為了克服這個(gè)問題,論文[28]使用GAN創(chuàng)建了一系列標(biāo)準(zhǔn)姿勢(shì)圖片。論文一共提取了8個(gè)pose,基本覆蓋了所有角度。每張圖片都會(huì)生成這樣標(biāo)準(zhǔn)的8個(gè)姿勢(shì),這樣姿勢(shì)不同的問題就解決了。最后對(duì)這些圖像的特征進(jìn)行平均池化,得到最終的特征。該特征整合了每個(gè)姿態(tài)的信息,很好地解決了姿態(tài)偏差問題。這項(xiàng)工作無論是在生成的圖表還是實(shí)驗(yàn)結(jié)果方面都非常好。這項(xiàng)工作將單查詢變成了多查詢,但你無法反駁它,因?yàn)樗袌D都是由GAN 生成的。除了生成這些圖所需的額外時(shí)間開銷之外,沒有使用任何額外的數(shù)據(jù)信息。當(dāng)然,這項(xiàng)工作還需要一個(gè)預(yù)先訓(xùn)練的姿勢(shì)估計(jì)網(wǎng)絡(luò)來進(jìn)行姿勢(shì)提取。

總的來說,GAN映射是為了從某種角度解決ReID的困難而設(shè)計(jì)的。 GAN 可以彌補(bǔ)任何不足。不得不說GAN真是一個(gè)強(qiáng)大的東西。

后記:以上是基于深度學(xué)習(xí)的行人重識(shí)別研究綜述。選取了一些有代表性的論文,希望能夠幫助剛進(jìn)入該領(lǐng)域的人快速了解近年來的工作。當(dāng)然,還有很多優(yōu)秀的作品沒有收錄。 ICCV17 上有十幾篇ReID 文章。這幾年總共應(yīng)該有幾百篇文章了。

為您推薦

福彩3D18157期小樣說彩推薦:大碼適時(shí)反彈(福彩3d 大?。?/a>

開獎(jiǎng)回顧:第156期福彩福彩3D開獎(jiǎng)號(hào)碼:324,和值9,跨度2,大小比0:3,奇偶比1:2。(一)上期開跨度2,跨度最近走勢(shì)為:4-3-8-7-2-6-7-3-7-2 ,大小比4:6,本期留意跨度偶數(shù)開出,看好 4 5 6出。(二)上期大

2024-03-19 12:29

考生速查!河南省高招藝術(shù)類統(tǒng)考成績(jī)公布

來源:河南發(fā)布 河南省2023年普通高校招生音樂、播音與主持、舞蹈類專業(yè)省統(tǒng)考專業(yè)成績(jī)于2023年3月23日上午10:00公布??忌赏ㄟ^以下方式查詢成績(jī):一是登錄河南省教育考試院網(wǎng)站(www.haeea.cn),點(diǎn)擊“數(shù)據(jù)中心”-- “普

2024-03-19 12:10

報(bào)名、考試時(shí)間確定!事關(guān)2022年下半年教師資格考試 2021年下半年教師資格證考試報(bào)名時(shí)間和考試時(shí)間

2022年下半年中小學(xué)教師資格考試面試12月9日開始網(wǎng)上報(bào)名,12月5日起可在報(bào)名網(wǎng)站http://ntce.neea.edu.cn注冊(cè)。2023年1月3日至1月7日,可登錄報(bào)名網(wǎng)站下載打印面試準(zhǔn)考證。2023年1月7日至1月8日,全國(guó)統(tǒng)一

2024-03-19 11:57

高考成績(jī)明日零時(shí)公布 有3種方式查詢,高考成績(jī)明日零時(shí)公布 有3種方式查詢不到

□大河報(bào)·大河客戶端記者樊雪婧高考多少分這個(gè)懸而未決的問題,25日零時(shí)就有標(biāo)準(zhǔn)答案了。6月23日,記者從河南省招生辦獲悉,按照高招工作安排,25日零時(shí),全省高考分?jǐn)?shù)公布,考生可網(wǎng)上查詢個(gè)人考試成績(jī),各批次分?jǐn)?shù)線將于24日下午率先公布。此外,

2024-03-19 11:41

河南藝考生筆試成績(jī)2022年1月5日起可查詢(河南省藝考分?jǐn)?shù)查詢時(shí)間)

來源:河南廣電-映象網(wǎng)河南省2022年藝術(shù)類省統(tǒng)考筆試已經(jīng)結(jié)束,記者從河南省教育考生院了解到,筆試成績(jī)查詢時(shí)間分兩批:美術(shù)類、書法類、編導(dǎo)制作類為2022年1月5日;音樂類為2022年1月28日。成績(jī)查詢方式有三種:一是登陸河南省招生辦公室

2024-03-19 11:26

考生家長(zhǎng)請(qǐng)注意!警惕省級(jí)招辦網(wǎng)站公號(hào)“李鬼”

中新網(wǎng)7月19日電 據(jù)教育部網(wǎng)站消息,教育部、中央網(wǎng)信辦、公安部三部門近日聯(lián)合治理非法仿冒省級(jí)招生考試機(jī)構(gòu)網(wǎng)站和公眾號(hào)。同時(shí),三部門公布了全國(guó)31省招辦社交平臺(tái)賬號(hào),供考生和家長(zhǎng)查詢。資料圖:2019年6月25日,大批考生和家長(zhǎng)在咨詢會(huì)現(xiàn)場(chǎng)

2024-03-19 11:13

加載中...