李解直播软件下载安卓手机,恋蜜直播安卓版本免费安装,紫轩直播安卓高清版下载

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述（下）

更新時(shí)間：2024-03-19 12:45作者：小樂

雷鋒網(wǎng)AI技術(shù)評(píng)論注：本文作者羅浩，浙江大學(xué)博士生。本文系羅浩為雷鋒網(wǎng)AI技術(shù)評(píng)論獨(dú)家撰稿，未經(jīng)許可不得轉(zhuǎn)載。

3.基于局部特征的ReID方法。在早期的ReID研究中，大家主要關(guān)注的是全局特征，即利用整張圖像來獲取特征向量來進(jìn)行圖像檢索。但后來大家逐漸發(fā)現(xiàn)全局特征遇到了瓶頸，于是開始逐漸研究局部特征。提取局部特征常用的思路包括圖像切片、骨骼關(guān)鍵點(diǎn)定位、姿態(tài)校正等。

(1)圖像切片是一種非常常見的提取局部特征的方法[12]。如下圖所示，圖片被垂直分成了幾個(gè)部分。由于垂直切割更符合我們對(duì)人體識(shí)別的直觀體驗(yàn)，因此水平切割很少用于行人重識(shí)別領(lǐng)域。

之后，幾個(gè)分割的圖像塊按順序發(fā)送到長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM），最終的特征結(jié)合了所有圖像塊的局部特征。但這個(gè)缺點(diǎn)是對(duì)圖像對(duì)齊的要求比較高。如果兩幅圖像上下沒有對(duì)齊，那么頭部和上半身之間很可能會(huì)出現(xiàn)反差，從而導(dǎo)致模型做出錯(cuò)誤的判斷。

（2）為了解決圖像未對(duì)齊時(shí)手動(dòng)圖像切片失敗的問題，一些論文利用一些先驗(yàn)知識(shí)先對(duì)齊行人。這些先驗(yàn)知識(shí)主要是預(yù)先訓(xùn)練的人體姿勢(shì)（Pose）和骨骼關(guān)鍵點(diǎn)（Skeleton）。）模型。論文[13]首先使用姿態(tài)估計(jì)模型來估計(jì)行人的關(guān)鍵點(diǎn)，然后使用仿射變換來對(duì)齊相同的關(guān)鍵點(diǎn)。如下圖所示，一個(gè)行人通常被分為14個(gè)關(guān)鍵點(diǎn)。這14個(gè)關(guān)鍵點(diǎn)將人體結(jié)果分為幾個(gè)區(qū)域。為了提取不同尺度下的局部特征，作者設(shè)置了三種不同的PoseBox組合。之后，將三張PoseBox校正后的圖片和原始校正后的圖片發(fā)送到網(wǎng)絡(luò)中提取特征。該特征包含全局信息和局部信息。特別提出，如果這種仿射變換可以在進(jìn)入網(wǎng)絡(luò)之前的預(yù)處理中進(jìn)行，那么也可以在輸入到網(wǎng)絡(luò)之后進(jìn)行。如果是后者，則需要對(duì)仿射變換進(jìn)行改進(jìn)，因?yàn)閭鹘y(tǒng)的徑向變換是不可微的。為了使網(wǎng)絡(luò)可訓(xùn)練，需要引入可微的近似輻射變化，本文不再詳細(xì)介紹相關(guān)知識(shí)。

（3）CVPR2017工作Spindle Net[14]也使用14個(gè)人體關(guān)鍵點(diǎn)來提取局部特征。與論文[12]不同的是，Spindle Net沒有使用仿射變換來對(duì)齊局部圖像區(qū)域，而是直接使用這些關(guān)鍵點(diǎn)來提取感興趣區(qū)域（ROI）。 Spindle Net網(wǎng)絡(luò)如下圖所示。首先，通過骨骼關(guān)鍵點(diǎn)提取網(wǎng)絡(luò)提取14個(gè)人體關(guān)鍵點(diǎn)，然后利用這些關(guān)鍵點(diǎn)提取7個(gè)人體結(jié)構(gòu)ROI。網(wǎng)絡(luò)中用于特征提取的所有CNN（以橙色表示）參數(shù)都是共享的。該CNN 分為三個(gè)線性子網(wǎng)絡(luò)FEN-C1、FEN-C2 和FEN-C3。對(duì)于輸入的行人圖片，有一個(gè)預(yù)訓(xùn)練的骨骼關(guān)鍵點(diǎn)提取CNN（以藍(lán)色表示）獲得14個(gè)人體關(guān)鍵點(diǎn)，從而獲得7個(gè)ROI區(qū)域，包括三個(gè)大區(qū)域（頭部、上半身、下半身）和四肢的四個(gè)小區(qū)域。這7個(gè)ROI區(qū)域和原始圖像進(jìn)入同一個(gè)CNN網(wǎng)絡(luò)來提取特征。原始圖像經(jīng)過完整的CNN以獲得全局特征。三個(gè)大區(qū)域經(jīng)過FEN-C2和FEN-C3子網(wǎng)絡(luò)以獲得三個(gè)局部特征。四個(gè)肢體區(qū)域通過FEN-C3子網(wǎng)絡(luò)獲得四個(gè)局部特征。然后，如圖所示，將這8個(gè)特征在不同尺度上進(jìn)行連接，最終得到融合多個(gè)尺度下的全局特征和局部特征的行人重識(shí)別特征。

（4）論文[15]提出了一種全局-局部對(duì)齊特征描述符（GLAD）來解決行人姿勢(shì)變化的問題。與Spindle Net類似，GLAD利用提取的人體關(guān)鍵點(diǎn)將圖像分為三個(gè)部分：頭部、上半身和下半身。然后將整幅圖像和三幅局部圖像輸入到參數(shù)共享的CNN網(wǎng)絡(luò)中，最終提取的特征結(jié)合了全局特征和局部特征。為了適應(yīng)不同分辨率大小的圖像輸入，網(wǎng)絡(luò)使用全局平均池化（GAP）來提取各自的特征。與Spindle Net 的細(xì)微差別在于，四張輸入圖像各自計(jì)算相應(yīng)的損失，而不是將它們合并為一個(gè)特征來計(jì)算總損失。

(5)上述所有局部特征對(duì)齊方法都需要額外的骨架關(guān)鍵點(diǎn)或姿態(tài)估計(jì)模型。訓(xùn)練一個(gè)實(shí)用的模型需要收集足夠的訓(xùn)練數(shù)據(jù)，這是非常昂貴的。為了解決上述問題，AlignedReID[16]提出了一種基于SP距離的自動(dòng)對(duì)齊模型，無需額外信息即可自動(dòng)對(duì)齊局部特征。采用的方法是動(dòng)態(tài)對(duì)齊算法，也稱為最短路徑距離。這個(gè)最短距離就是自動(dòng)計(jì)算的本地距離。

該局部距離可以與任何全局距離方法結(jié)合。論文[15]選擇TriHard loss作為基線實(shí)驗(yàn)。整個(gè)網(wǎng)絡(luò)最終的結(jié)構(gòu)如下圖所示。具體細(xì)節(jié)請(qǐng)參見原文。

4.基于視頻序列的ReID方法目前，單幀ReID研究仍然是主流，因?yàn)閿?shù)據(jù)集相對(duì)較小，即使在單GPU PC上進(jìn)行實(shí)驗(yàn)也不會(huì)花費(fèi)太長(zhǎng)時(shí)間。然而，通常單幀圖像的信息是有限的，因此很多工作集中在使用視頻序列進(jìn)行行人重新識(shí)別方法[17-24]?；谝曨l序列的方法之間的主要區(qū)別在于，這些方法不僅考慮圖像的內(nèi)容信息，還考慮幀之間的運(yùn)動(dòng)信息。

基于單幀圖像的方法主要思想是利用CNN提取圖像的空間特征，而基于視頻序列的方法主要思想是利用CNN提取空間特征并利用循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)（RNN）來提取時(shí)間特征。上圖就是一個(gè)非常典型的想法。網(wǎng)絡(luò)輸入是圖像序列。每幅圖像通過共享的CNN來提取圖像空間內(nèi)容特征，然后將這些特征向量輸入到RNN網(wǎng)絡(luò)以提取最終的特征。最終的特征結(jié)合了單幀圖像的內(nèi)容特征和幀間的運(yùn)動(dòng)特征。該特征用于替代之前單幀方法的圖像特征來訓(xùn)練網(wǎng)絡(luò)。

視頻序列類的代表性方法之一是累積運(yùn)動(dòng)上下文網(wǎng)絡(luò)（AMOC）[23]。 AMOC輸入包括原始圖像序列和提取的光流序列。通常需要使用傳統(tǒng)的光流提取算法來提取光流信息，但這些算法計(jì)算耗時(shí)且與深度學(xué)習(xí)網(wǎng)絡(luò)不兼容。為了獲得一個(gè)自動(dòng)提取光流的網(wǎng)絡(luò)，作者首先訓(xùn)練了一個(gè)運(yùn)動(dòng)信息網(wǎng)絡(luò)（Motion network，Moti Nets）。該運(yùn)動(dòng)網(wǎng)絡(luò)的輸入是原始圖像序列，標(biāo)簽是傳統(tǒng)方法提取的光流序列。如下圖所示，第一行顯示原始圖像序列，第二行顯示提取的光流序列。該網(wǎng)絡(luò)具有三個(gè)光流預(yù)測(cè)輸出，即Pred1、Pred2和Pred3。這三個(gè)輸出可以預(yù)測(cè)三個(gè)不同尺度的光流圖。最后，網(wǎng)絡(luò)融合三個(gè)尺度的光流預(yù)測(cè)輸出，得到最終的光流圖，預(yù)測(cè)的光流序列顯示在第三行。通過最小化預(yù)測(cè)光流圖和提取光流圖之間的誤差，網(wǎng)絡(luò)可以提取更準(zhǔn)確的運(yùn)動(dòng)特征。

AMOC的核心思想是，網(wǎng)絡(luò)除了提取序列圖像的特征外，還必須提取運(yùn)動(dòng)光流的運(yùn)動(dòng)特征。網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示。 AMOC有兩個(gè)子網(wǎng)絡(luò)：空間網(wǎng)絡(luò)（Spat Nets）和運(yùn)動(dòng)信息網(wǎng)絡(luò)。圖像序列的每一幀被輸入到Spat Nets 以提取圖像的全局內(nèi)容特征。相鄰的兩個(gè)幀將被發(fā)送到Moti Nets 以提取光流圖特征。然后將空間特征和光流特征融合并輸入到RNN 中以提取時(shí)間特征。通過AMOC網(wǎng)絡(luò)，可以提取每個(gè)圖像序列結(jié)合內(nèi)容信息和運(yùn)動(dòng)信息的特征。該網(wǎng)絡(luò)使用分類損失和對(duì)比損失來訓(xùn)練模型。結(jié)合運(yùn)動(dòng)信息的序列圖像特征可以提高行人重新識(shí)別的準(zhǔn)確性。

論文[24]從另一個(gè)角度展示了多幀序列對(duì)于彌補(bǔ)單幀信息不足的作用。目前，大多數(shù)基于視頻的ReID方法仍然無論情況如何都將序列信息交給網(wǎng)絡(luò)，讓網(wǎng)絡(luò)自己學(xué)習(xí)有用的信息。信息，沒有直觀的解釋為什么多幀信息有用。論文[24]明確指出，當(dāng)單幀圖像遇到遮擋等情況時(shí)，可以利用多幀的其他信息來彌補(bǔ)，直接誘導(dǎo)網(wǎng)絡(luò)對(duì)圖像進(jìn)行質(zhì)量判斷，降低重要性質(zhì)量較差的框架?；ㄙM(fèi)。

如上圖所示，文章認(rèn)為當(dāng)遮擋嚴(yán)重時(shí)，使用通用池化會(huì)導(dǎo)致注意力圖惡化，遮擋區(qū)域的很多特征會(huì)丟失。通過使用論文的方法對(duì)每一幀進(jìn)行質(zhì)量判斷，可以關(guān)注那些相對(duì)完整的幀，使注意力圖更加完整。關(guān)鍵的實(shí)現(xiàn)是使用姿態(tài)估計(jì)網(wǎng)絡(luò)。這篇論文被稱為地標(biāo)檢測(cè)器。當(dāng)?shù)貥?biāo)不完整時(shí)，證明存在遮擋，圖像質(zhì)量會(huì)惡化。之后，將位姿特征圖和全局特征圖同時(shí)輸入到網(wǎng)絡(luò)中，讓網(wǎng)絡(luò)對(duì)每一幀進(jìn)行權(quán)重判斷，為高質(zhì)量的幀分配較高的權(quán)重，然后進(jìn)行線性疊加在特征圖上。這個(gè)想法相對(duì)簡(jiǎn)單，但仍然很有說服力。

5、基于GAN映射的ReID方法

ReID一個(gè)非常大的問題就是數(shù)據(jù)獲取困難。截至CVPR18 截止日期，最大的ReID 數(shù)據(jù)集只有幾千個(gè)ID 和幾萬張圖片（假設(shè)序列只算一張）。因此，在ICCV17 GAN建圖和ReID挖了第一個(gè)坑之后，大量的GAN工作涌現(xiàn)，特別是CVPR18截止日期后，arxiv上出現(xiàn)了幾篇好論文。

論文[25]是第一篇使用GAN進(jìn)行ReID的文章，發(fā)表在ICCV17會(huì)議上。論文雖然比較簡(jiǎn)單，但是作為挖坑鼻祖卻帶來了一系列好作品。如下圖，本文生成的圖像質(zhì)量并不是很高，甚至可以用慘不忍睹來形容。另一個(gè)問題是，由于圖像是隨機(jī)生成的，因此沒有標(biāo)簽可以使用。為了解決這個(gè)問題，論文提出了一種標(biāo)簽平滑方法。實(shí)際操作也很簡(jiǎn)單，就是標(biāo)簽向量每個(gè)元素的值都一樣，這樣和就是1。反正你也分不清是屬于哪個(gè)人的，就一碗水。生成的圖像作為訓(xùn)練數(shù)據(jù)添加到訓(xùn)練中。由于當(dāng)時(shí)的基線沒有現(xiàn)在那么高，所以效果還是比較明顯的。至少有了更多的數(shù)據(jù)，過度擬合就可以避免很多。

論文[26]是前一篇論文的增強(qiáng)版本，來自同一研究小組。上一篇文章中的GAN圖還是隨機(jī)的，但在這篇文章中它變成了可控生成圖。 ReID 的一個(gè)問題是不同的攝像頭存在偏差。這種偏差可能來自光線和角度等多種因素。為了克服這個(gè)問題，論文使用GAN 將圖片從一臺(tái)相機(jī)傳輸?shù)搅硪慌_(tái)相機(jī)。 GAN還是一個(gè)比較正常的應(yīng)用。與之前的工作不同，本文生成的圖是可以控制的，這意味著ID是明確的。因此，標(biāo)簽平滑也得到了改進(jìn)，公式如下：

在

是ID 的數(shù)量。

是手動(dòng)設(shè)置的平滑參數(shù)，當(dāng)

它是一個(gè)普通的one-hot向量。不過，由于是創(chuàng)建的圖片，所以希望標(biāo)簽不要那么硬，所以我加了一個(gè)平滑參數(shù)。實(shí)驗(yàn)表明這種方法效果很好。最終整體網(wǎng)絡(luò)框架如下：

除了相機(jī)偏差之外，ReID 的另一個(gè)問題是數(shù)據(jù)集中存在偏差。這種偏差很大一部分是環(huán)境造成的。為了克服這種偏差，論文[27]使用GAN將行人從一個(gè)數(shù)據(jù)集遷移到另一個(gè)數(shù)據(jù)集。為了實(shí)現(xiàn)這種遷移，對(duì)GAN損失進(jìn)行了稍微設(shè)計(jì)。一個(gè)是前景的絕對(duì)誤差損失，另一個(gè)是正常的鑒別器損失。判別器損失用于確定生成的圖像屬于哪個(gè)域，前景損失是為了保證行人前景盡可能真實(shí)且不變。這個(gè)前景mask是使用PSPnet得到的，效果如下圖。論文的另一個(gè)貢獻(xiàn)是提出了一個(gè)MSMT17數(shù)據(jù)集，這是一個(gè)相當(dāng)大的數(shù)據(jù)集，希望能夠盡快公開。

ReID的困難之一是姿勢(shì)的差異。為了克服這個(gè)問題，論文[28]使用GAN創(chuàng)建了一系列標(biāo)準(zhǔn)姿勢(shì)圖片。論文一共提取了8個(gè)pose，基本覆蓋了所有角度。每張圖片都會(huì)生成這樣標(biāo)準(zhǔn)的8個(gè)姿勢(shì)，這樣姿勢(shì)不同的問題就解決了。最后對(duì)這些圖像的特征進(jìn)行平均池化，得到最終的特征。該特征整合了每個(gè)姿態(tài)的信息，很好地解決了姿態(tài)偏差問題。這項(xiàng)工作無論是在生成的圖表還是實(shí)驗(yàn)結(jié)果方面都非常好。這項(xiàng)工作將單查詢變成了多查詢，但你無法反駁它，因?yàn)樗袌D都是由GAN 生成的。除了生成這些圖所需的額外時(shí)間開銷之外，沒有使用任何額外的數(shù)據(jù)信息。當(dāng)然，這項(xiàng)工作還需要一個(gè)預(yù)先訓(xùn)練的姿勢(shì)估計(jì)網(wǎng)絡(luò)來進(jìn)行姿勢(shì)提取。

總的來說，GAN映射是為了從某種角度解決ReID的困難而設(shè)計(jì)的。 GAN 可以彌補(bǔ)任何不足。不得不說GAN真是一個(gè)強(qiáng)大的東西。

后記：以上是基于深度學(xué)習(xí)的行人重識(shí)別研究綜述。選取了一些有代表性的論文，希望能夠幫助剛進(jìn)入該領(lǐng)域的人快速了解近年來的工作。當(dāng)然，還有很多優(yōu)秀的作品沒有收錄。 ICCV17 上有十幾篇ReID 文章。這幾年總共應(yīng)該有幾百篇文章了。

上一篇：《破產(chǎn)姐妹》里最帥的配角簽約了男模公司，會(huì)成功嗎？（破產(chǎn)姐妹男演員表）

加載中...

红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

美國(guó)留學(xué)

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述（下）

為您推薦

福彩3D18157期小樣說彩推薦：大碼適時(shí)反彈（福彩3d 大?。?/a>

考生速查！河南省高招藝術(shù)類統(tǒng)考成績(jī)公布

報(bào)名、考試時(shí)間確定！事關(guān)2022年下半年教師資格考試 2021年下半年教師資格證考試報(bào)名時(shí)間和考試時(shí)間

高考成績(jī)明日零時(shí)公布有3種方式查詢，高考成績(jī)明日零時(shí)公布有3種方式查詢不到

河南藝考生筆試成績(jī)2022年1月5日起可查詢（河南省藝考分?jǐn)?shù)查詢時(shí)間）

考生家長(zhǎng)請(qǐng)注意！警惕省級(jí)招辦網(wǎng)站公號(hào)“李鬼”

熱門文章

熱門推薦

最新文章

红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

美國(guó)留學(xué)

基于深度學(xué)習(xí)的行人重識(shí)別研究綜述（下）

為您推薦

福彩3D18157期小樣說彩推薦：大碼適時(shí)反彈（福彩3d 大?。?/a>

考生速查！河南省高招藝術(shù)類統(tǒng)考成績(jī)公布

報(bào)名、考試時(shí)間確定！事關(guān)2022年下半年教師資格考試 2021年下半年教師資格證考試報(bào)名時(shí)間和考試時(shí)間

高考成績(jī)明日零時(shí)公布 有3種方式查詢，高考成績(jī)明日零時(shí)公布 有3種方式查詢不到

河南藝考生筆試成績(jī)2022年1月5日起可查詢（河南省藝考分?jǐn)?shù)查詢時(shí)間）

考生家長(zhǎng)請(qǐng)注意！警惕省級(jí)招辦網(wǎng)站公號(hào)“李鬼”

熱門文章

熱門推薦

最新文章

福彩3D18157期小樣說彩推薦：大碼適時(shí)反彈（福彩3d 大?。?/a>

考生速查！河南省高招藝術(shù)類統(tǒng)考成績(jī)公布

報(bào)名、考試時(shí)間確定！事關(guān)2022年下半年教師資格考試 2021年下半年教師資格證考試報(bào)名時(shí)間和考試時(shí)間

高考成績(jī)明日零時(shí)公布有3種方式查詢，高考成績(jī)明日零時(shí)公布有3種方式查詢不到