美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時(shí)間:2024-03-22 14:37作者:小樂
作為現(xiàn)階段最成功的VR內(nèi)容生態(tài)系統(tǒng)之一,Quest商店吸引了越來越多的開發(fā)者發(fā)布VR內(nèi)容,但這對于Meta來說似乎還不夠。它還在探索某種UGC VR生態(tài)系統(tǒng),例如在Horizon Worlds中提供視覺開發(fā)工具,以便普通人可以創(chuàng)建VR應(yīng)用程序。近日,Meta發(fā)布的一項(xiàng)新研究表明,未來制作AR/VR內(nèi)容可能就像拍攝短視頻一樣簡單。
據(jù)了解,為了簡化AR/VR內(nèi)容的開發(fā),Meta開發(fā)了RGB-D圖像生成3D模型解決方案:MCC。 MMC的全稱是多視圖壓縮編碼。它是一個(gè)基于Transformer的編碼器-解碼器模型,可以基于一幀RGB-D圖像合成/重建3D模型。潛在的應(yīng)用場景包括AR/VR、3D視覺重建、機(jī)器人導(dǎo)航。數(shù)字孿生/虛擬仿真等。與普通彩色2D圖像不同,RGB-D是帶有深度的彩色圖像,相當(dāng)于普通RGB三通道彩色圖像加上深度圖(Depth Map)。兩者被注冊并具有一一對應(yīng)的像素。
事實(shí)上,Meta在2018年的F8大會上就宣布了3D照片研究,可以通過雙攝手機(jī)拍攝出具有3D效果的照片,其中包含一定的深度信息。它甚至開發(fā)了將2D 圖像轉(zhuǎn)換為3D 的CNN 模型,該模型支持單攝像頭手機(jī)。這意味著,如果與MCC解決方案結(jié)合,或許可以將單攝像頭手機(jī)拍攝的2D圖像合成為3D模型。
Transformer 是一種使用自注意力機(jī)制的深度學(xué)習(xí)模型。 Google已經(jīng)用它來增強(qiáng)搜索引擎,最近流行的ChatGPT模型也是基于Transformer的。最初,Transformer 更常用于自然語言處理領(lǐng)域,但隨著它與大規(guī)模、通用類別的學(xué)習(xí)模型相結(jié)合,開始應(yīng)用于語言處理以外的領(lǐng)域,例如圖像合成、圖像處理等。分析。
使用MCC 解決方案,3D 開發(fā)/綜合將有望實(shí)現(xiàn)規(guī)?;?。隨著深度傳感器和深度捕捉AI模型在手機(jī)上的普及,具有深度信息的圖像變得越來越容易獲取,因此MCC可以使用的數(shù)據(jù)規(guī)模足夠大。
研究背景Meta研究人員指出,視覺識別的一個(gè)核心目標(biāo)是基于單個(gè)圖像來理解物體和場景。在大規(guī)模學(xué)習(xí)和通用表示的驅(qū)動(dòng)下,二維圖像識別技術(shù)得到了很大的提高。然而,現(xiàn)階段識別3D 場景/物體仍然存在挑戰(zhàn)。由于2D圖像源中存在圖形遮擋,因此很難從單個(gè)圖像合成完整的3D圖像。模型。
為了解決這個(gè)問題,一些3D 合成模型依賴于不同角度的多個(gè)源圖像。如果使用CAD模型進(jìn)行訓(xùn)練,市場上可用的數(shù)據(jù)集規(guī)模不夠大,從而限制了3D合成和理解技術(shù)的發(fā)展。
MCC只需要RGB-D圖像進(jìn)行訓(xùn)練,圖像中不可見的部分也可以在3D模型中完全預(yù)測/合成。用于監(jiān)督的數(shù)據(jù)基于包含深度信息和相機(jī)姿勢的視頻幀。
解決方案原理MCC 使用簡單的解碼器-編碼器架構(gòu)。將RGB-D 圖像輸入MCC 將產(chǎn)生輸入編碼。然后解碼器將訪問輸入編碼中的3D 點(diǎn)數(shù)據(jù)來預(yù)測點(diǎn)的占用情況和RGB 顏色。 (將3D 重建定義為二元分類問題)。簡單來說,MCC只需要處理3D點(diǎn)云數(shù)據(jù),3D點(diǎn)可以捕捉任何物體或場景。它們比網(wǎng)格和體素更通用,因此可以使用大規(guī)模RGB-D 圖像數(shù)據(jù)來訓(xùn)練模型。另外,RGB-D圖像可以通過手機(jī)的LiDAR傳感器捕獲,或者通過深度模型(例如MiDas、COLMAP)計(jì)算。
研究人員使用來自不同數(shù)據(jù)集的深度圖像/視頻來訓(xùn)練MCC。這些數(shù)據(jù)部分并不包含3D場景和3D物體的所有角度,這將需要AI重建。此外,MCC還可以將AI合成的圖像轉(zhuǎn)換為3D模型。
因此,MCC最大的特點(diǎn)是可以預(yù)測RGB-D圖像中不可見和被遮擋的3D幾何形狀。研究人員表示:MCC模型與基于圖像的自監(jiān)督學(xué)習(xí)和掩模自動(dòng)編碼器(MAE)的最新進(jìn)展直接相關(guān)。 MAE 還通過預(yù)測圖像中不可見的形狀來學(xué)習(xí)圖像表示。此外,MCC 不需要帶注釋的3D 數(shù)據(jù),使得收集數(shù)據(jù)更便宜、更容易。
研究人員表示:研究結(jié)果表明,將基于點(diǎn)云的3D合成模型與通用類別的大規(guī)模訓(xùn)練相結(jié)合是有效的。未來,我們希望將這一成果拓展為通用的3D分析視覺系統(tǒng),使3D重建/合成效果更加接近人腦的想象。
與其他解決方案相比,Google和NVIDIA等科技公司也開發(fā)了2D圖像轉(zhuǎn)3D技術(shù),分別依靠NeRF和反向渲染(3D MoMa)。缺點(diǎn)是需要多幅圖像,NeRF很難從單幅圖像生成新的場景。其他一些解決方案需要使用有限規(guī)模的數(shù)據(jù)(例如3D CAD模型)進(jìn)行訓(xùn)練,而MCC只能通過RGB-D圖像來訓(xùn)練3D重建。
此外,MCC具有良好的通用性,對于以前從未見過的新物體類別可以“開箱即用”(支持零樣本學(xué)習(xí)),并且可以直接處理成3D模型。
為了演示MCC 與不同數(shù)據(jù)源的兼容性,研究人員將其與多個(gè)圖像源相結(jié)合,例如:
iPhone 14 Pro(LiDAR 傳感器)圖像生成AI DALL-E 2 Facebook 開源的3D 重建數(shù)據(jù)集CO3D(Common Objects in 3D)大型視覺數(shù)據(jù)庫ImageNet3D 模擬數(shù)據(jù)集Hypersim 室內(nèi)場景數(shù)據(jù)集Taskonomy 這些數(shù)據(jù)集包含50 多個(gè)常見對象類型,以及大型場景,如倉庫、禮堂、閣樓、餐廳等,利用它們重建的3D模型無法一一還原,但看起來比原來的更加圓潤、卡通,但是它們用于3D開發(fā),質(zhì)量足夠好。未來,隨著更多的數(shù)據(jù)和更多樣化的對象進(jìn)行訓(xùn)練,MCC的性能可以得到顯著的提升。
參考:元