美國(guó)留學(xué)選擇什么專業(yè)好?留學(xué)美國(guó)熱門專業(yè)推薦
2019-06-26
更新時(shí)間:2024-06-11 08:41作者:小樂
近日,麻省理工學(xué)院研究團(tuán)隊(duì)發(fā)表論文,指責(zé)著名數(shù)據(jù)集ImageNet 存在系統(tǒng)性錯(cuò)誤。該論文還被國(guó)際機(jī)器學(xué)習(xí)會(huì)議ICML2020接收。
同時(shí),這篇論文編號(hào)為《From ImageNet to Image Classification: Contextualizing Progress on Benchmarks》,也發(fā)表在預(yù)印本存儲(chǔ)庫arXiv上。
MIT研究團(tuán)隊(duì)之所以在ICML會(huì)議上介紹這項(xiàng)研究,是因?yàn)樽罱摹癟iny Images”爭(zhēng)議。
就在本月早些時(shí)候,麻省理工學(xué)院(MIT) 宣布永久刪除包含8000 萬張圖像的Tiny Images 數(shù)據(jù)集,并公開道歉。原因是相關(guān)研究人員發(fā)表論文,指控Tiny ImageNet數(shù)據(jù)集包含多個(gè)危險(xiǎn)標(biāo)簽,包括種族歧視、性別歧視、色情內(nèi)容等,而且指控有理有據(jù)。
論文顯示,ImageNet 在語義結(jié)構(gòu)分析中使用了WordNet 名詞,其中包含種族歧視等危險(xiǎn)內(nèi)容。同時(shí),由于圖像太小,數(shù)據(jù)量太大,沒有對(duì)圖像標(biāo)簽進(jìn)行人工一一檢查,導(dǎo)致出現(xiàn)問題。
眾所周知,著名的數(shù)據(jù)集ImageNet也使用WordNet進(jìn)行語義結(jié)構(gòu)分析。那么,ImageNet數(shù)據(jù)集是否也存在同樣的問題呢?對(duì)此,麻省理工學(xué)院的研究團(tuán)隊(duì)給出了答案。
ImageNet 基準(zhǔn)測(cè)試與實(shí)際情況不符。大規(guī)模ImageNet數(shù)據(jù)集的出現(xiàn)可以說意味著機(jī)器學(xué)習(xí)深度革命的新起點(diǎn)。 2009年,李飛飛領(lǐng)導(dǎo)的研究團(tuán)隊(duì)在計(jì)算機(jī)視覺與模式識(shí)別大會(huì)(CVPR)上首次推出了ImageNet。 ImageNet 數(shù)據(jù)集包含10,000 個(gè)類別和超過100 萬張圖像。數(shù)據(jù)量是前所未有的。
正是由于數(shù)據(jù)量大、質(zhì)量高,ImageNet數(shù)據(jù)集被廣泛用于預(yù)訓(xùn)練和基準(zhǔn)測(cè)試。然而,麻省理工學(xué)院的研究團(tuán)隊(duì)在最近的一項(xiàng)研究中指出:
ImageNet存在明顯的“系統(tǒng)標(biāo)注問題”,導(dǎo)致其作為基準(zhǔn)數(shù)據(jù)集時(shí)與實(shí)際情況不符。
他們發(fā)現(xiàn)ImageNet 數(shù)據(jù)集中大約20% 的圖像包含兩個(gè)或更多對(duì)象。
在分析多個(gè)物體識(shí)別模型后,數(shù)據(jù)顯示,包含多個(gè)物體的照片導(dǎo)致整體基線的準(zhǔn)確度下降10%。
舉個(gè)簡(jiǎn)單的例子:如果這張圖片是ImageNet數(shù)據(jù)集中的一張高清圖像,我們可以看到這張圖片包含了多個(gè)物體,包括一個(gè)女孩、一把吉他和一個(gè)唱歌的麥克風(fēng),而該圖片的主要目標(biāo)是圖片應(yīng)該是個(gè)女孩。
然而,ImageNet的數(shù)據(jù)標(biāo)簽可能不是女孩,也可能是唱歌的麥克風(fēng)或吉他。重要的是ImageNet只會(huì)標(biāo)注一個(gè)標(biāo)簽,這可能會(huì)導(dǎo)致ImageNet在目標(biāo)識(shí)別中出現(xiàn)錯(cuò)誤。
研究人員在論文中指出
“總的來說,單個(gè)ImageNet 標(biāo)簽可能并不總是捕獲ImageNet 圖像的主要對(duì)象。然而,當(dāng)我們訓(xùn)練和評(píng)估時(shí),我們將標(biāo)簽視為圖像的底層真相,因此這可能會(huì)導(dǎo)致測(cè)試和現(xiàn)實(shí)世界的物體識(shí)別任務(wù)之間出現(xiàn)不一致,無論是在模型執(zhí)行還是評(píng)估性能方面?!?
看到這里,你可能會(huì)想,為什么圖像不能被準(zhǔn)確標(biāo)注呢?其實(shí)問題的關(guān)鍵在于ImageNet使用的標(biāo)記工具WorldNet。
WordNet 名詞標(biāo)記是關(guān)鍵WordNet 由George Armitage Miller 在20 世紀(jì)80 年代創(chuàng)立,廣泛應(yīng)用于數(shù)據(jù)集收集和標(biāo)記過程。簡(jiǎn)單理解,ImageNet會(huì)根據(jù)WorldNet提供的名詞及其語義層次結(jié)構(gòu)作為數(shù)據(jù)集的初始來源,在搜索引擎或Flickr等網(wǎng)站中進(jìn)行圖像搜索。
當(dāng)WordNet提供名詞時(shí),根據(jù)其設(shè)定的語音層次結(jié)構(gòu),ImageNet需要擴(kuò)展該名詞的父節(jié)點(diǎn)的同義詞,并將其作為搜索關(guān)鍵字。例如,搜索“whippet”類別名詞(父節(jié)點(diǎn)為:“狗”)也會(huì)包含“whippet 狗”。
這類似于我們經(jīng)常看到的“相關(guān)搜索”。為了進(jìn)一步擴(kuò)大圖像庫,數(shù)據(jù)集創(chuàng)建者還進(jìn)行了多種語言的搜索。
但這里重要的一點(diǎn)是,對(duì)于每個(gè)檢索到的圖像,已經(jīng)確定了一個(gè)標(biāo)簽,如果該標(biāo)簽包含在數(shù)據(jù)集中,它將被分配給該圖像。也就是說,標(biāo)簽僅由用于相應(yīng)搜索查詢的WordNet 節(jié)點(diǎn)給出。
在這個(gè)過程中,WordNet的語義結(jié)構(gòu)會(huì)將非主要目標(biāo)的圖像納入到數(shù)據(jù)集中,從而導(dǎo)致前面提到的標(biāo)簽偏差。正如論文中的數(shù)據(jù)所示,不同的對(duì)象目標(biāo)出現(xiàn)在同一分類標(biāo)簽中。 (如圖所示)
既然如此,為什么在數(shù)據(jù)集創(chuàng)建過程中廣泛使用WordNet名詞呢?
一方面,這是因?yàn)閃orldNet可以完成大量數(shù)據(jù)的自動(dòng)標(biāo)注。我們知道,所有的數(shù)據(jù)集在使用之前都必須完成標(biāo)注任務(wù),而優(yōu)秀的數(shù)據(jù)集的規(guī)模是非常大的。如果全部都是手工標(biāo)注的話會(huì)非常困難,但是WorldNet可以很好的解決這個(gè)問題。
另一方面,對(duì)于ImageNet、WordNet來說,僅獲得初始數(shù)據(jù)標(biāo)簽,其準(zhǔn)確性還需要通過相關(guān)模型再次驗(yàn)證。一般來說,ImageNet數(shù)據(jù)集的創(chuàng)建過程分為兩個(gè)階段:自動(dòng)圖像采集(automated data collection)和眾包過濾(crowd-sourcedfiltering),眾包過濾就是所謂的評(píng)審階段,分為以下5個(gè)階段步驟:
潛在標(biāo)簽(Candidate Labels):通過將現(xiàn)有的ImageNet圖像標(biāo)簽與模型預(yù)測(cè)的前5個(gè)標(biāo)簽相結(jié)合,獲得每張圖像的潛在標(biāo)簽。
選擇頻率:通過Mechanical Turk(MTurk)平臺(tái),將潛在標(biāo)簽與注釋內(nèi)容進(jìn)行比較。經(jīng)過反復(fù)的過濾循環(huán),最好的標(biāo)簽就是出現(xiàn)頻率最高的標(biāo)簽(一般小于5)。
CLASSIFY任務(wù):針對(duì)獲得的少數(shù)多個(gè)標(biāo)簽,重新定義一組新的標(biāo)注內(nèi)容,根據(jù)標(biāo)注信息為不同的對(duì)象分配標(biāo)簽,確定主要對(duì)象的標(biāo)簽。這個(gè)過程稱為分類。
物體標(biāo)注:總結(jié)以上訓(xùn)練后,得到更細(xì)粒度的圖像標(biāo)注;
與原始ImageNet標(biāo)簽相比,眾包過濾后生成的注釋可以更細(xì)粒度地表征圖像的內(nèi)容。然而研究人員發(fā)現(xiàn),這些注釋內(nèi)容可能達(dá)不到預(yù)期的效果。如下圖所示,CONTAINS 任務(wù)會(huì)選擇Multiple labels are valid for images,并且對(duì)于70% 的圖像,選擇的注釋的標(biāo)簽頻率至少是ImageNet 原始標(biāo)簽的一半。
下圖顯示,盡管他們只感知單個(gè)物體,但他們經(jīng)常選擇多達(dá)10 個(gè)類別標(biāo)簽。因此,對(duì)于單目標(biāo)圖像,ImageNet驗(yàn)證過程無法獲得準(zhǔn)確的標(biāo)簽。
因此,可以說圖像標(biāo)注在很大程度上仍然依賴于自動(dòng)檢索(WorldNet)過程,而眾包過濾的評(píng)審過程仍然有很大的改進(jìn)空間。
關(guān)于未來如何優(yōu)化創(chuàng)建數(shù)據(jù)集的任務(wù),研究人員在論文中表示,我們相信開發(fā)注釋過程,特別是審查階段,以更好地捕獲地面事實(shí),同時(shí)保持可擴(kuò)展性,是未來研究的重要途徑。 ”
涉嫌種族歧視,大規(guī)模數(shù)據(jù)集作為人工智能技術(shù)的基礎(chǔ)持續(xù)存在爭(zhēng)議。數(shù)據(jù)集在許多研究領(lǐng)域有著廣泛的使用場(chǎng)景,尤其是在計(jì)算機(jī)視覺領(lǐng)域。近年來,因數(shù)據(jù)集的使用而引發(fā)的隱私泄露、種族歧視等問題接連出現(xiàn),讓人工智能技術(shù)的發(fā)展備受爭(zhēng)議。
除了近期麻省理工學(xué)院因涉嫌種族歧視刪除包含8000張圖像的Tiny Image數(shù)據(jù)外,此前,一種圖像修復(fù)算法PULSE也曾在學(xué)術(shù)圈引起軒然大波。有網(wǎng)友發(fā)現(xiàn),PULSE修復(fù)馬賽克圖像時(shí),將奧巴馬的臉部圖像變成了高分辨率的白人。這件事引起了黑人網(wǎng)友的不滿。
對(duì)此,圖靈獎(jiǎng)之父Lecun在推特上表示,訓(xùn)練結(jié)果存在種族偏見,因?yàn)閿?shù)據(jù)集本身就存在偏見,工程師在使用時(shí)應(yīng)該注意這一點(diǎn)。
今年因數(shù)據(jù)集引發(fā)的種族歧視事件多起,而解決這些數(shù)據(jù)集爭(zhēng)議的無非是在數(shù)據(jù)收集和標(biāo)注階段進(jìn)行改進(jìn)。研究人員表示,對(duì)于大型數(shù)據(jù)集,理想的方法是收集世界各地指定目標(biāo)的圖像,并讓專家按準(zhǔn)確的類別手動(dòng)過濾和標(biāo)記它們。這里需要注意的是,非專家的手動(dòng)標(biāo)記也可能會(huì)出現(xiàn)錯(cuò)誤。
但從目前來看,這個(gè)方法是非常不現(xiàn)實(shí)的。事實(shí)上,ImageNet等數(shù)據(jù)集都是從互聯(lián)網(wǎng)搜索引擎爬取的圖像,質(zhì)量參差不齊,圖像審核不夠嚴(yán)謹(jǐn)。同時(shí),專家對(duì)大量數(shù)據(jù)的手工標(biāo)注也很難實(shí)現(xiàn)。然而,正如這項(xiàng)研究聲稱的那樣,技術(shù)可以進(jìn)一步改進(jìn)自動(dòng)圖像審查的過程,以提高數(shù)據(jù)集的質(zhì)量。
此外,學(xué)術(shù)界越來越關(guān)注與數(shù)據(jù)集相關(guān)的缺陷,計(jì)算機(jī)語言協(xié)會(huì)(ACL)本月早些時(shí)候重點(diǎn)關(guān)注了這個(gè)問題。
參考鏈接:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
https://arxiv.org/abs/2005.11295
https://arxiv.org/pdf/2005.11295.pdf
https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/
https://venturebeat.com/2020/07/01/mit-takes-down-8000萬個(gè)微小圖像數(shù)據(jù)集由于種族主義和攻擊性內(nèi)容/