美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時間:2024-03-14 16:03作者:小樂
簡介作為數(shù)學(xué)的一個分支,拓撲學(xué)以獨特的方式描述空間的性質(zhì)和結(jié)構(gòu)。近年來,幾何和拓撲在機器學(xué)習(xí)中得到了廣泛的應(yīng)用,尤其是拓撲模型,在數(shù)據(jù)表示和特征提取中發(fā)揮著重要作用。拓撲數(shù)據(jù)分析(TDA)植根于代數(shù)拓撲和計算拓撲。它在處理結(jié)構(gòu)化數(shù)據(jù)方面得到了很大的發(fā)展,并逐漸成為人工智能數(shù)學(xué)的一個重要方面。在極智社“數(shù)學(xué)與人工智能讀書會”中,夏克林老師討論了拓撲數(shù)據(jù)分析(TDA)的主要思想和模型。首先,他介紹了基本的拓撲數(shù)據(jù)表示模型,特別是基于簡單數(shù)據(jù)的復(fù)合體結(jié)構(gòu),以及與傳統(tǒng)圖模型的區(qū)別,然后介紹了基于簡單復(fù)合體的拓撲深度學(xué)習(xí)。拓撲數(shù)據(jù)分析在描述復(fù)雜的高階相互作用方面顯示出巨大的優(yōu)勢,特別是它可以描述系統(tǒng)最本質(zhì)的拓撲信息。拓撲數(shù)據(jù)分析將進一步促進我們對數(shù)據(jù)本質(zhì)信息的挖掘和表征,為提高機器學(xué)習(xí)模型的準(zhǔn)確性、可解釋性和可遷移性奠定堅實的數(shù)學(xué)基礎(chǔ)。研究領(lǐng)域:復(fù)雜系統(tǒng)、人工智能數(shù)學(xué)、拓撲數(shù)據(jù)分析、簡單復(fù)雜、拓撲深度學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、過濾流過程夏克林|演講者王志宏|主辦:梁進|編輯目錄1.數(shù)據(jù)的拓撲表示2.拓撲數(shù)據(jù)處理的特點3.拓撲深度學(xué)習(xí)4.基于簡單復(fù)雜的圖神經(jīng)網(wǎng)絡(luò)本文以分子數(shù)據(jù)處理為出發(fā)點,探討拓撲數(shù)據(jù)的應(yīng)用和特點分析(TDA)。 AI數(shù)據(jù)處理中的兩個關(guān)鍵環(huán)節(jié),——數(shù)據(jù)表示和建模分析特征,與拓撲數(shù)據(jù)分析密切相關(guān)。接下來我們就來介紹一下這兩個環(huán)節(jié)。圖1. 基于人工智能的分子數(shù)據(jù)分析
陶津、紀堯姆等人。 “giotto-tda: 用于機器學(xué)習(xí)和數(shù)據(jù)探索的拓撲數(shù)據(jù)分析工具包?!睓C器學(xué)習(xí)研究雜志22.1 (2021): 1834-1839。文章總結(jié)了拓撲數(shù)據(jù)與機器學(xué)習(xí)結(jié)合的相關(guān)理論。查扎爾、弗雷德里克和伯特蘭·米歇爾。 “為數(shù)據(jù)科學(xué)家介紹拓撲數(shù)據(jù)分析: 的基本和實踐方面?!比斯ぶ悄芮把?(2021): 108。
1.1 數(shù)據(jù)表示在處理圖像數(shù)據(jù)時,我們可以使用神經(jīng)網(wǎng)絡(luò)模型來生成相應(yīng)的數(shù)據(jù)表示。例如,人臉識別是通過提取特定特征點構(gòu)建網(wǎng)格模型來進行的。除了網(wǎng)格模型之外,還有其他不同的數(shù)據(jù)表示方法,例如特征圖和熱圖。雖然源自相同的圖像數(shù)據(jù),但從數(shù)學(xué)角度可以建立不同的模型:最簡單的矩陣模型,或者點陣模型、網(wǎng)格模型,甚至更復(fù)雜的函數(shù)模型。一旦建立了數(shù)學(xué)模型,就可以根據(jù)模型提取特征并與后續(xù)感興趣的信息連接起來,例如通過多層感知器(MLP)進行預(yù)測。圖2.人臉識別模型同樣,在處理分子數(shù)據(jù)(例如小分子數(shù)據(jù)和蛋白質(zhì)數(shù)據(jù))時,也有許多不同的數(shù)據(jù)表示方法。一種常見的方法是基于共價鍵的圖表示,其中每個節(jié)點代表一個原子,邊代表共價鍵,形成圖表示。圖3. 不同的分子模型。此外,還有幾何方法,例如將原子視為具有固定半徑的球體。觀察者可以研究球體集合的外部,即分子的表面,并觀察其表面積或凸凹區(qū)域。這些凸凹區(qū)域與原子間相互作用的信息有關(guān),這種描述更加幾何化。此外,密度泛函理論可用于計算電子密度或電子函數(shù)分布,將分子數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)表示的空間形式。因此,盡管源自相同的分子數(shù)據(jù),我們可以從多個角度來表征它。一旦表征完成,可以基于此提取各種特征,包括各種指紋和描述符等。這些特性可能與你最終想要了解的功能有關(guān),例如水溶性、脂溶性、毒性等。 1.2分子結(jié)構(gòu)建模在建立分子功能模型的過程中,廣泛使用結(jié)構(gòu)數(shù)據(jù)。這是因為分子的結(jié)構(gòu)與其功能之間存在很強的關(guān)系,稱為“結(jié)構(gòu)-功能關(guān)系”。例如,離子通道蛋白的顯著特征是它們的中心有一個孔(圖4 左上)。該孔對于離子通道的功能至關(guān)重要,因為它有助于細胞膜外的離子進入細胞膜,或膜內(nèi)的離子離開細胞。另一個例子是蛋白質(zhì)籠(圖4 右下角)。這種蛋白質(zhì)的表面有一定的結(jié)構(gòu),但其內(nèi)部是空的,就像一個用來存放東西的盒子。這種中空結(jié)構(gòu)有利于儲存某些物質(zhì)。和交通。最后一個例子是具有兩個由柔性接頭區(qū)域連接的固定區(qū)域的分子。這種結(jié)構(gòu)可以產(chǎn)生開關(guān)狀態(tài),使分子處于激發(fā)或非激發(fā)狀態(tài),影響其功能。圖4.蛋白質(zhì)分子結(jié)構(gòu)無論是通過共價鍵連接還是通過非共價相互作用連接,都會影響最終的穩(wěn)態(tài)結(jié)構(gòu),這與分子功能密切相關(guān)。因此,描述分子的結(jié)構(gòu)對于理解其功能起著重要作用。為了更好地表征分子的結(jié)構(gòu),提取了大量的描述符(無論是組合的、世代的還是幾何的)。在這些描述符中,有些側(cè)重于拓撲屬性,例如圖上的向量、幾何量等,而另一些則側(cè)重于組合或鄰近信息的指紋。圖5. 化學(xué)描述符。在大量的結(jié)構(gòu)描述中,可能存在一些更本質(zhì)、更全局的量,能夠更好地捕捉結(jié)構(gòu)的整體信息,從而對理解和描述分子的功能發(fā)揮作用。更重要的作用。這就引出了拓撲數(shù)據(jù)處理的核心:通過拓撲不變量來描述數(shù)據(jù)。
與傳統(tǒng)工具相比,拓撲數(shù)據(jù)分析具有三個主要特點: 1)簡單復(fù)雜:采用簡單復(fù)雜的描述方法,可以捕獲數(shù)據(jù)中比圖描述更豐富的拓撲和幾何信息。 2)拓撲不變量:拓撲數(shù)據(jù)分析使用拓撲不變量而不是僅僅依賴統(tǒng)計或描述量。這些拓撲不變量可以提供對數(shù)據(jù)的深入理解,包括數(shù)據(jù)連接性和空洞等復(fù)雜結(jié)構(gòu)。 3)過濾流過程:拓撲數(shù)據(jù)分析包含過濾流過程,可以很好地與系統(tǒng)內(nèi)部的多尺度描述結(jié)合。通過觀察和分析不同尺度的數(shù)據(jù),我們可以獲得更全面的信息。 2.1 簡單復(fù)雜在計算機科學(xué)、工程學(xué)、生物學(xué)等非數(shù)學(xué)領(lǐng)域,人們通常使用圖來表達實體之間的連接關(guān)系。然而,在基礎(chǔ)數(shù)學(xué)領(lǐng)域,更常使用一種稱為簡單復(fù)形的描述方法。作為一種先進的拓撲工具,單純復(fù)形可以更好地描述復(fù)雜系統(tǒng)中的結(jié)構(gòu)信息。與圖相比,單純復(fù)形有幾個重要的區(qū)別: 1)高維描述:除了表示節(jié)點和邊(即0維和1維對象)之外,單純復(fù)形還可以表示更高維的對象。例如,實心三角形表示2 維對象,實心四面體表示3 維對象。圖6.圖和單純復(fù)形2)高階交互:圖主要描述兩個實體之間的交互,通過引入“更高維單元”,單純復(fù)形可以表達兩個以上的實體。相互作用。例如,實心三角形表示三個實體之間的交互,實心四面體表示四個實體之間的交互。注意兩者的區(qū)別,用一個形象的比喻來解釋:一張圖可以代表父親和孩子的關(guān)系,也可以代表母親和孩子的關(guān)系;一張圖可以代表父親和孩子的關(guān)系,也可以代表母親和孩子的關(guān)系;而情結(jié)則可以代表由父親、母親和孩子組成的家庭單位之間的關(guān)系。使用填充的二維三角形。 3)距離和體積的描述:圖形通常只能描述路徑或距離,而簡單的復(fù)合體可以描述面積、兩側(cè)之間的角度(二維單位)或體積(3維單位)。這為我們提供了更高階的信息,使我們能夠捕獲實體之間更復(fù)雜的交互。舉一個簡單的例子,從一組點和固定距離構(gòu)造一個復(fù)形(Vietoris-Rips 復(fù)形): 圖7. 在微分拓撲中,基于函數(shù)導(dǎo)數(shù)采用的信息,Vietoris-Rips 復(fù)形可能更復(fù)雜值0 其正定性將流形分為多個部分(莫爾斯復(fù)數(shù)):圖8. 莫爾斯復(fù)數(shù)
馬吉洛,保拉,等人。 “計算地形形態(tài)的離散方法?!庇嬎銠C視覺和計算機圖形學(xué)。理論與應(yīng)用: 國際會議VISIGRAPP 2007,西班牙巴塞羅那,2007 年3 月8 日至11 日。修訂后的精選論文。 Springer Berlin Heidelberg,2008。提取莫爾斯復(fù)數(shù)的離散方法
2.2 拓撲不變量拓撲不變量是拓撲空間性質(zhì)的表征,為數(shù)據(jù)分析提供了全局的、本質(zhì)的視角。與PCA等統(tǒng)計方法相比,它更注重整體的屬性。我們舉兩個拓撲不變量的經(jīng)典例子: 1)歐拉特征數(shù):歐拉特征數(shù)的值為“減加”(V-E+F)。對于拓撲上等價于球體的多面體(如立方體或八面體等),歐拉特征數(shù)為2。這是因為從拓撲意義上來說,這些形狀可以連續(xù)變形為球體。圖9 四面體和六面體的歐拉特征數(shù)2)貝蒂數(shù):貝蒂數(shù)是拓撲數(shù)據(jù)分析(TDA)中常用的拓撲不變量,用于描述拓撲空間的復(fù)雜性。零維貝蒂數(shù)表示相連分支的數(shù)量,一維貝蒂數(shù)表示獨立環(huán)的數(shù)量,二維貝蒂數(shù)表示“空心”球體的數(shù)量,依此類推。圖10 貝蒂數(shù)描述分子結(jié)構(gòu)2.3 過濾流動過程過濾流動過程(過濾)是拓撲數(shù)據(jù)分析的核心概念。這個過程可以理解為不斷改變尺度,觀察復(fù)雜系統(tǒng)如何隨著尺度的變化而變化。過濾流過程描述了不同尺度的單純復(fù)形,并生成相應(yīng)的條形碼來記錄每個尺度的拓撲信息。圖11. 過濾流程。上圖左邊的十四個點代表原始數(shù)據(jù)。每個點周圍都有一個球體。隨著時間的推移,這些球體的半徑不斷增加。當(dāng)兩個球體接觸時,表明兩個數(shù)據(jù)點之間存在連接,形成一條邊,獨立分支的數(shù)量減少1。在過濾流動過程中,隨著球體半徑的增加,獨立單元的數(shù)量逐漸減少,同時出現(xiàn)新的拓撲結(jié)構(gòu)(如環(huán)和更高維的孔)。從圖中的條形碼可以看出,最初有14個獨立節(jié)點,所以Betti為14。隨著時間的推移,球體之間的連接數(shù)量增加,獨立節(jié)點數(shù)量減少。同時,當(dāng)出現(xiàn)閉合路徑時,就會形成一個環(huán),這一變化可以在Betti 的條形碼中看到。圖12. Vietoris-Rips 復(fù)形和單純復(fù)形通過過濾流程和單純復(fù)形,我們可以從全局和多尺度的角度理解復(fù)雜系統(tǒng)的結(jié)構(gòu),并通過拓撲不變量(例如Betti 數(shù))來量化這些屬性。該方法在機器學(xué)習(xí)和遷移學(xué)習(xí)等領(lǐng)域具有重要的應(yīng)用。與傳統(tǒng)統(tǒng)計工具相比,它提供了對數(shù)據(jù)深層本質(zhì)結(jié)構(gòu)的理解。圖13 多尺度單純復(fù)形3.1 拓撲深度學(xué)習(xí)的基本過程。前面的討論更多是從數(shù)學(xué)角度出發(fā)。在處理現(xiàn)實問題時,我們應(yīng)該如何將拓撲理論應(yīng)用于化學(xué)分子等具體科學(xué)問題?以碳60分子為例。 C是由60個碳原子組成的分子。它的形狀類似于足球,包含12個五元環(huán)和20個六元環(huán)。如下圖所示,我們使用拓撲數(shù)據(jù)分析進行分析,x軸代表直徑。圖14. C 分子模型的Betti 數(shù)與直徑的關(guān)系? 在Betti-0 中,有60 個條形碼,其中30 個較短,30 個較長。較短的代表碳碳雙鍵,因為雙鍵更強,將原子拉得更近,而較長的代表碳碳單鍵,比雙鍵弱,所以距離稍長。這樣,Betti-0描述了共價鍵的信息。 ? 在Betti-1 中,有32 個條形碼,其中12 個較短,20 個較長。較短的對應(yīng)于五元環(huán),而較長的對應(yīng)于六元環(huán)。因此,Betti-1描述了環(huán)的信息。 ? 在Betti-2中,可以看到很長的條形碼,它對應(yīng)于C分子整體的中空結(jié)構(gòu)。有了這些特征信息,我們將拓撲數(shù)據(jù)分析與機器學(xué)習(xí)結(jié)合起來。
例如,對數(shù)據(jù)構(gòu)造不同類型的簡單復(fù)合體,進行過濾處理,獲取條形碼,然后提取各種特征(例如最長條形碼、最短條形碼、總量等),并將這些特征輸入到機器學(xué)習(xí)中模型(例如隨機森林或梯度提升樹)執(zhí)行函數(shù)預(yù)測等任務(wù)。這樣就實現(xiàn)了拓撲深度學(xué)習(xí)的基本流程。圖15 拓撲深度學(xué)習(xí)的基本流程3.2 領(lǐng)域相關(guān)工作在拓撲數(shù)據(jù)分析(TDA)與機器學(xué)習(xí)相結(jié)合的研究領(lǐng)域,魏國偉教授及其團隊做了很多創(chuàng)新性的工作。他們通過TDA 提取數(shù)據(jù)集的特征,并將這些特征用于各種預(yù)測任務(wù)。過去幾年,在圖網(wǎng)絡(luò)尚未廣泛使用、可處理的數(shù)據(jù)量相對較?。ㄍǔT谌У剿那еg)的時代,他們的研究結(jié)果表明,TDA 可以提取比傳統(tǒng)方法更好的結(jié)果統(tǒng)計方法?;蛟谀承┙M合中更有效的特征。圖16. 基于拓撲學(xué)習(xí)的預(yù)測。從多個基準(zhǔn)數(shù)據(jù)集的結(jié)果來看,他們基于TDA的模型表現(xiàn)非常好。尤其值得注意的是,在D3R藥物設(shè)計競賽中,他們通過結(jié)合TDA和機器學(xué)習(xí)方法,在2017年和2018年的比賽中都取得了顯著的優(yōu)勢,并超越了許多傳統(tǒng)方法。他們早期在TDA與機器學(xué)習(xí)相結(jié)合的研究方向上的工作為該領(lǐng)域奠定了堅實的基礎(chǔ)。圖17. D3R 藥物設(shè)計競賽
蒼、紫軒、林暮、國偉偉。 “基于機器學(xué)習(xí)的評分和虛擬篩選中生物分子的代數(shù)拓撲的可表示性。” PLoS 計算生物學(xué)14.1 (2018): e1005929。拓撲機器學(xué)習(xí)模型預(yù)測配體蛋白結(jié)合能。 Nguyen、Duc Duy 等人。 “MathDL: 用于D3R Grand Challenge 4 的數(shù)學(xué)深度學(xué)習(xí)?!庇嬎銠C輔助分子設(shè)計雜志34(2020): 131-147。應(yīng)用于藥物設(shè)計的拓撲機器學(xué)習(xí)模型。
3.3 持久譜:譜法與濾波流程相結(jié)合
在觀察和分析數(shù)據(jù)時,主要有兩種方式:一是考慮數(shù)據(jù)的表示形式,二是利用數(shù)據(jù)的特征。在前面的討論中,我們主要關(guān)注了拓撲的特征,包括各種拓撲不變量,它們描述了結(jié)構(gòu)的復(fù)雜性。另一方面,當(dāng)我們想要保留數(shù)據(jù)的更精細特征時,我們需要考慮數(shù)據(jù)的其他數(shù)學(xué)不變量。例如,對于圖或單純復(fù)形,我們可以考慮譜圖方法及其擴展,它基于圖、單純復(fù)形或超圖上的離散拉普拉斯算子(Hodge Laplacian),并利用其譜信息在數(shù)據(jù)中表示。圖18. 光譜方法與過濾流程相結(jié)合。為了結(jié)合這兩個想法,我們提出了一種新模型持久光譜。該模型綜合利用濾波流過程和譜映射方法,保留數(shù)據(jù)的原始形狀,同時揭示其內(nèi)在的拓撲特征。
埃德斯布倫納、赫伯特和約翰·哈勒。 “持久同源性——一項調(diào)查?!碑?dāng)代數(shù)學(xué)453.26(2008): 257-82。持久同源性是拓撲數(shù)據(jù)分析(TDA)的核心模型。 Wang、Rui、Duc Duy Nguyen 和Guo-Wei Wei。 “持久光譜圖?!眹H生物醫(yī)學(xué)工程數(shù)值方法雜志36.9 (2020): e3376。提出了持久譜圖方法。
拉普拉斯矩陣我們僅對拉普拉斯矩陣的概念進行粗略的介紹。 k Veraplace矩陣L具有以下計算公式。圖19. 拉普拉斯矩陣計算公式。例如, 0 Veraplace 矩陣L 以點為單位對象,對角線為點的度數(shù)。當(dāng)點i和j連接時,L的(i,j)位置取-1,否則取0。同樣,在復(fù)雜形狀上,將邊制成單元對象,得到1 Veraplace矩陣L從邊之間的關(guān)系。圖20.圖L,L,L的拉普拉斯矩陣將得到特征值分解的拉普拉斯矩陣,其中零特征值的數(shù)量對應(yīng)于Betti,反映了圖的連通分量的數(shù)量。拉普拉斯矩陣的非零特征值也包含豐富的信息。例如,最小的非零特征值,也稱為費德勒值,常用來表征圖的連通性,顯示簡單復(fù)形各部分之間的連接關(guān)系。圖21. 零特征值個數(shù)和貝蒂數(shù)3.4 里奇曲率另一個重要的不變量是幾何不變量,比如里奇曲率。里奇曲率可以捕獲圖或網(wǎng)絡(luò)中的群落結(jié)構(gòu)或簇結(jié)構(gòu)。例如,當(dāng)圖中存在緊密連接的社區(qū)或簇時,該區(qū)域的里奇曲率通常為較大的正值。對于連接兩個不同社區(qū)或集群的橋梁部分,里奇曲率可能為負。因此,許多研究人員使用里奇曲率分配方法來描述網(wǎng)絡(luò)中區(qū)域之間的互連性。圖22 里奇曲率里奇曲率和其他曲率是用來描述整體結(jié)構(gòu)、簇結(jié)構(gòu)、群落結(jié)構(gòu)和鏈接結(jié)構(gòu)之間關(guān)系的重要工具,可以用來揭示網(wǎng)絡(luò)或網(wǎng)絡(luò)內(nèi)部豐富而復(fù)雜的拓撲和幾何特性。數(shù)據(jù)集。事實上,上述信息是可以相互關(guān)聯(lián)的。例如,拓撲中的貝蒂數(shù)(同源信息)與霍奇拉普拉斯中的零特征值之間存在一一對應(yīng)的關(guān)系。離散形式的里奇曲率(例如福爾曼里奇曲率)也可以通過與霍奇拉普拉斯算子(例如博赫納-魏岑伯克公式)的某種組合來關(guān)聯(lián)。圖23. 幾何不變量的關(guān)聯(lián)使用這些工具從不同的角度描述數(shù)據(jù)的結(jié)構(gòu): ? 里奇曲率幫助我們理解數(shù)據(jù)的幾何特性; ? 貝蒂數(shù)或更一般的同源信息揭示了數(shù)據(jù)的拓撲特性; ? 譜方法可以捕獲網(wǎng)絡(luò)或數(shù)據(jù)集的全局屬性。 3.5 簡單復(fù)形的構(gòu)造上面主要介紹了基于數(shù)學(xué)不變量的數(shù)據(jù)的幾個特征(特征化),包括貝蒂數(shù)、曲率和譜信息。另一個更基本的問題是數(shù)據(jù)的表示。例如,圖、簡單復(fù)合體和超圖用于表示數(shù)據(jù)。圖24. 簡單復(fù)形和超圖考慮圖或單純復(fù)形的子結(jié)構(gòu),例如社區(qū)、集群或模塊。這些子結(jié)構(gòu)通??梢越沂緮?shù)據(jù)中更精細的組織形式,從而幫助我們更準(zhǔn)確地理解和預(yù)測系統(tǒng)的行為。另外,我們還可以考慮動態(tài)的視角,比如時間演化網(wǎng)絡(luò),這可以幫助我們理解系統(tǒng)的變化和發(fā)展模式。有很多方法可以構(gòu)建簡單的復(fù)合體。除了Clique復(fù)合體、VR復(fù)合體、Alpha復(fù)合體等常用方法外,下面將介紹三種方法。它們在拓撲學(xué)中有廣泛的應(yīng)用。此外,拓撲信息還可以用其他代數(shù)模型來表示。這里我們要介紹一個特殊的代數(shù)模型,Tor-algebra。
博德納爾、克里斯蒂安. “拓撲深度學(xué)習(xí): 個圖、復(fù)合體、滑輪?!辈┦空撐?,劍橋大學(xué),2022 年。拓撲深度學(xué)習(xí)。
3.5.1 鄰域復(fù)合體最簡單的構(gòu)造方法是鄰域復(fù)合體(Neighborhood Complex),它是根據(jù)給定圖中的鄰接關(guān)系來構(gòu)造的。如下圖所示,假設(shè)有一個點有三個相鄰的點。我們將這四個點組成一個四邊形(稱為2-單純形)。如果兩個相鄰點也彼此相鄰,則將這兩個點連接起來形成一條邊(1-單純形)。如果有三個點彼此相鄰,則這三個點形成一個實心三角形(2-單純形)。這樣,圖就轉(zhuǎn)變?yōu)猷徲驈?fù)合體。圖25. 社區(qū)綜合體。該鄰域復(fù)合體描述的拓撲信息與其他方法(例如Clique Complex)獲得的結(jié)果顯著不同。構(gòu)建簡單復(fù)合體的另一種有趣方法是Dowker 復(fù)合體。 3.5.2 Dowker Complex 在研究兩個實體之間的相互作用時,例如兩個分子之間的連接,我們可能更關(guān)心分子之間的全局相互作用,而不是每個分子內(nèi)部的連接方式。這時候,二分圖就是一個很好的工具。我們將小分子(例如藍點和綠點)視為圖節(jié)點,然后根據(jù)它們之間的相互作用添加邊。圖26. Dowker綜合體在此基礎(chǔ)上構(gòu)建鄰里綜合體。由于藍點的所有相鄰點都位于綠點集合中,反之亦然,因此最終得到兩個單純復(fù)形,分別由藍點和綠點組成。實體之間的相互作用是在道克復(fù)合體的幫助下探索的。 3.5.3 坎復(fù)合體
C. H. Dowker,“關(guān)系同調(diào)群”,《數(shù)學(xué)年鑒》,第84-95 頁,1952 年。 L. Lovsz,“克內(nèi)澤猜想、色數(shù)和同倫”,組合理論雜志,A 系列,卷。 25、不。 3,第319-324 頁,1978 年。
使用“Hom Complex”方法可以構(gòu)造更復(fù)雜的場景,適合研究兩個圖的交互。其核心是構(gòu)建一種稱為多面體復(fù)合體的結(jié)構(gòu),其中元素是多同態(tài)。例如,假設(shè)有兩個圖K和K,并且選擇某種映射策略將K映射到K。這種映射只需要確保原始圖中存在的邊被映射到新圖中對應(yīng)的邊。例如,K中的K點映射到K中的a點,x點映射到b點。但如果你試圖將點K和x都映射到點a,就會出現(xiàn)問題,因為原圖中的點x和x之間有一條邊,但在新圖中,點a無法形成自環(huán)。圖27. Hom 復(fù)合體如上圖所示。 x 的映射,所有這些映射eta 形成復(fù)數(shù)Hom(K, K)。當(dāng)考慮更復(fù)雜的連接關(guān)系時,例如使用高階或卷積核式關(guān)系進行映射,該方法可以幫助生成新的單純復(fù)形,進一步反映該特定核下圖的深層連接。圖28. Hom 復(fù)數(shù)示例3.5.4 Tor 代數(shù)我們還可以將簡單復(fù)數(shù)結(jié)構(gòu)升級為更復(fù)雜的代數(shù)結(jié)構(gòu)以供考慮。例如,給定一個單純復(fù)形,定義一組多項式并建立這些多項式之間的特定關(guān)系(例如Stanley-Reisner理論)以獲得一個理想的結(jié)構(gòu),然后研究這個理想的屬性,例如它的Tor函子等等。這樣,圖的拓撲信息就轉(zhuǎn)化為代數(shù)量,簡單復(fù)形上升到代數(shù)層次,并在這個層次上進行研究。圖29. Tor 代數(shù)
向,L.I.U.和克林夏。 “基于持續(xù)Tor 代數(shù)的堆疊集成學(xué)習(xí)(PTA-SEL),用于蛋白質(zhì)-蛋白質(zhì)結(jié)合親和力預(yù)測?!?ICLR 2022 幾何和拓撲表示學(xué)習(xí)研討會。 2022.持久托代數(shù)(PTA)為生物研究提供強大有效的新工具
上一部分,夏克林老師介紹了基于簡單復(fù)雜的圖神經(jīng)網(wǎng)絡(luò),可以理解為圖神經(jīng)網(wǎng)絡(luò)的擴展。在圖神經(jīng)網(wǎng)絡(luò)中,核心思想是利用消息傳遞機制聚合節(jié)點周圍鄰居的信息并將其傳遞到目標(biāo)節(jié)點,然后通過這個過程的迭代,學(xué)習(xí)到整個圖結(jié)構(gòu)。圖30. 圖神經(jīng)網(wǎng)絡(luò)在拓撲數(shù)據(jù)處理中,我們不再僅僅基于圖進行操作,而是對更高維的簡單復(fù)合體或其他復(fù)雜結(jié)構(gòu)(例如Stellar 復(fù)合體)進行操作。例如,除了在點級別傳輸信息之外,我們還可以對邊、面或更高維的單純形執(zhí)行類似的操作。圖31. 簡單復(fù)合體上的信息傳輸。在進行如此復(fù)雜的拓撲數(shù)據(jù)分析時,有兩個非常核心的概念:邊界運算和共邊界運算。簡單來說,邊界操作是指找到給定單純形的所有較低一維面。例如,從一條邊(1-單純形)開始,我們可以找到它的兩個端點(0-單純形)。共邊界運算是逆運算,即從低維單純形開始尋找更高維單純形。圖32. 邊緣
界運算和鄰接關(guān)系除此之外,還有兩個重要關(guān)系:Lower Adjacency 和 Upper Adjacency。這兩個關(guān)系都是描述圖中的鄰接關(guān)系,但方式各異。Lower Adjacency指的是當(dāng)兩條邊有一個公共頂點時,我們稱這兩條邊是鄰接的。而Upper Adjacency則更為嚴格,只有當(dāng)兩條邊共享一個高維單純形(比如三角形)時,我們才認為它們是鄰接的。通過考慮不同的連接方式,可以進一步描繪出數(shù)據(jù)中信息傳遞的不同路徑,并通過將不同維度的信息耦合在一起,構(gòu)建一個復(fù)雜的“拓撲神經(jīng)網(wǎng)絡(luò)”。圖33. 拓撲神經(jīng)網(wǎng)絡(luò)這種結(jié)合了拓撲和深度學(xué)習(xí)的研究領(lǐng)域還相對較新,但已經(jīng)被廣大學(xué)者所關(guān)注,并有越來越多的研究工作開始嘗試利用拓撲數(shù)據(jù)分析來提升深度學(xué)習(xí)模型的性能。 Hajij, Mustafa, Kyle Istvan, and Ghada Zamzmi. "Cell complex neural networks." arXiv preprint arXiv:2010.00743 (2020).拓撲神經(jīng)網(wǎng)絡(luò) 思考延伸在拓撲數(shù)據(jù)分析(TDA)中,我們用單純復(fù)形來表述和理解復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。然而,其他專業(yè)領(lǐng)域的研究者可能對這樣的描述方式感到困惑。在他們眼中,原子(點)和共價鍵(邊)具有明確的物理含義,而單純復(fù)形中的三角形看起來似乎沒有直觀的物理意義?實際上,在 TDA 中,三角形捕獲了三個元素之間的相互關(guān)系。在化學(xué)領(lǐng)域,這可以用來表示由三個原子組成的二個共價鍵之間的角度信息(bond angle)。而且這個角度信息在分子動力學(xué)的模擬中有極其重要的作用。然而,如何更好地定義單純復(fù)形,并用它來描述體系中的高階相互作用仍然是TDA建模中的一個主要問題。另外一個 TDA 面臨的挑戰(zhàn)是如何將抽象的數(shù)學(xué)不變量與實際問題緊密聯(lián)系起來。為了解決這個問題,我們需要理解這些拓撲特征所代表的實際意義。例如數(shù)據(jù)中的環(huán)狀結(jié)構(gòu)是否反映出它的物理、化學(xué)、生物,或其他實際信息。盡管 TDA 與傳統(tǒng)圖的方法在概念上有所不同,但其在刻畫復(fù)雜的高階相互作用的問題中展示出了極大的優(yōu)越性,尤其是它可以刻畫體系的最本質(zhì)的拓撲信息。在實際應(yīng)用中,我們需要構(gòu)造合適的單純復(fù)形來描述高階信息,并且找出拓撲不變量的合適的實際意義,這樣才能發(fā)揮 TDA 模型真正作用,并使模型的解釋性和性能得到提升。這就需要我們深入理解問題背景,將數(shù)學(xué)工具與實際問題緊密結(jié)合,并尋找到一個合適的應(yīng)用場景來展示這種方法的優(yōu)點。只有這樣,TDA 才能表現(xiàn)其價值,并吸引更多人嘗試使用這種新方法。更進一步,除了拓撲數(shù)據(jù)分析,對于其他數(shù)學(xué)不變量,包括幾何不變量、代數(shù)不變量、組合不變量等,也可以用于數(shù)據(jù)的表征和特征提取,這些模型將進一步促進我們對數(shù)據(jù)的本質(zhì)信息的挖掘和刻畫。為提高機器學(xué)習(xí)模型的精度、可解釋性、遷移性等打下堅實的數(shù)學(xué)基礎(chǔ)。圖34. 分子數(shù)據(jù),數(shù)學(xué)表征,數(shù)據(jù)特性與深度學(xué)習(xí) 轉(zhuǎn)載內(nèi)容僅代表作者觀點不代表中科院物理所立場如需轉(zhuǎn)載請聯(lián)系原公眾號 來源:集智俱樂部編輯:停云