红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

網(wǎng)站首頁
手機(jī)版

港大開源圖基礎(chǔ)大模型OpenGraph: 強(qiáng)泛化能力,前向傳播預(yù)測(cè)新數(shù)據(jù)

更新時(shí)間:2024-06-06 23:17作者:小樂

OpenGraph 提交給奧菲斯

量子比特|公眾號(hào)QbitAI

有一種新方法可以緩解圖學(xué)習(xí)領(lǐng)域的數(shù)據(jù)匱乏問題!

OpenGraph,一種基于圖的基本模型,專門為各種圖數(shù)據(jù)集的零樣本預(yù)測(cè)而設(shè)計(jì)。

幕后黑手是港大數(shù)據(jù)智能實(shí)驗(yàn)室主任黃超團(tuán)隊(duì)。他們還提出了圖模型的提示調(diào)整技術(shù),以提高模型對(duì)新任務(wù)的適應(yīng)性。

目前,該工作已發(fā)布在GitHub 上。

據(jù)介紹,這項(xiàng)工作主要探索增強(qiáng)圖模型泛化能力的深度策略(特別是當(dāng)訓(xùn)練和測(cè)試數(shù)據(jù)存在顯著差異時(shí))。

OpenGraph旨在通過學(xué)習(xí)通用圖結(jié)構(gòu)模式并僅通過前向傳播進(jìn)行預(yù)測(cè)來實(shí)現(xiàn)全新數(shù)據(jù)的零樣本預(yù)測(cè)。

為了實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)解決了以下三個(gè)挑戰(zhàn):

數(shù)據(jù)集之間的token差異:不同的圖數(shù)據(jù)集往往有不同的圖token集,我們需要模型能夠跨數(shù)據(jù)集進(jìn)行預(yù)測(cè)。節(jié)點(diǎn)關(guān)系建模:在構(gòu)建通用圖模型時(shí),有效地建模節(jié)點(diǎn)關(guān)系至關(guān)重要,這關(guān)系到模型的可擴(kuò)展性和效率。數(shù)據(jù)稀缺:面對(duì)數(shù)據(jù)獲取的問題,我們通過大型語言模型進(jìn)行數(shù)據(jù)增強(qiáng),模擬復(fù)雜的圖結(jié)構(gòu)關(guān)系,提高模型訓(xùn)練的質(zhì)量。 OpenGraph通過拓?fù)涓兄膱DTokenizer和基于錨的圖Transformer等一系列創(chuàng)新方法有效解決了上述挑戰(zhàn),并且在多個(gè)數(shù)據(jù)集上的測(cè)試結(jié)果證明了模型出色的泛化能力。

OpenGraph模型OpenGraph模型架構(gòu)主要由3個(gè)核心部分組成:

1)統(tǒng)一圖分詞器; 2)可擴(kuò)展的圖Transformer; 3)基于大語言模型的知識(shí)蒸餾技術(shù)。

首先我們來談?wù)劷y(tǒng)一圖Tokenizer。

為了適應(yīng)不同數(shù)據(jù)集中節(jié)點(diǎn)和邊的差異,團(tuán)隊(duì)開發(fā)了統(tǒng)一的圖Tokenizer,將圖數(shù)據(jù)規(guī)范化為token序列。

此過程包括高階鄰接矩陣平滑和拓?fù)涓兄成洹?

高階鄰接矩陣平滑利用鄰接矩陣的高階冪來解決稀疏連接的問題,而拓?fù)涓兄成鋵⑧徑泳仃囖D(zhuǎn)換為節(jié)點(diǎn)序列并使用快速奇異值分解(SVD)來最小化信息損失并保留更多的圖結(jié)構(gòu)信息。

其次是可擴(kuò)展的圖Transformer。

標(biāo)記化后,OpenGraph使用Transformer架構(gòu)來模擬節(jié)點(diǎn)之間的依賴關(guān)系,主要使用以下技術(shù)來優(yōu)化模型性能和效率:

第一個(gè)是token序列采樣,利用采樣技術(shù)來減少模型需要處理的關(guān)系數(shù)量,從而降低訓(xùn)練的時(shí)間和空間復(fù)雜度。

二是錨點(diǎn)采樣的自注意力機(jī)制。該方法通過學(xué)習(xí)節(jié)點(diǎn)之間階段性的信息傳遞,進(jìn)一步降低了計(jì)算復(fù)雜度,有效提高了模型的訓(xùn)練效率和穩(wěn)定性。

最后是大語言模型的知識(shí)蒸餾。

為了解決訓(xùn)練通用圖模型時(shí)面臨的數(shù)據(jù)隱私和類別多樣性問題,團(tuán)隊(duì)從大語言模型(LLM)的知識(shí)和理解能力中汲取靈感,利用LLM生成各種圖結(jié)構(gòu)數(shù)據(jù)。

這種數(shù)據(jù)增強(qiáng)機(jī)制通過模擬現(xiàn)實(shí)世界圖的特征,有效提高了數(shù)據(jù)的質(zhì)量和實(shí)用性。

該團(tuán)隊(duì)還首先開發(fā)了一組針對(duì)特定應(yīng)用程序定制的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都有用于生成邊的文本描述。

當(dāng)面對(duì)電子商務(wù)平臺(tái)等大規(guī)模節(jié)點(diǎn)集時(shí),研究人員通過將節(jié)點(diǎn)細(xì)分為更具體的子類別來處理這一問題。

例如,從“電子產(chǎn)品”到具體的“手機(jī)”、“筆記本電腦”等,不斷重復(fù)這個(gè)過程,直到節(jié)點(diǎn)被細(xì)化到接近真實(shí)實(shí)例。

提示樹算法根據(jù)樹結(jié)構(gòu)對(duì)節(jié)點(diǎn)進(jìn)行細(xì)分,生成更詳細(xì)的實(shí)體。

從“產(chǎn)品”等一般類別開始,逐步細(xì)化到具體的子類別,最終形成節(jié)點(diǎn)樹。

至于邊緣生成,研究人員使用吉布斯采樣根據(jù)生成的節(jié)點(diǎn)集形成邊緣。

為了減少計(jì)算負(fù)擔(dān),我們不直接通過LLM遍歷所有可能的邊。相反,我們首先使用LLM計(jì)算節(jié)點(diǎn)之間的文本相似度,然后使用簡(jiǎn)單的算法來確定節(jié)點(diǎn)關(guān)系。

在此基礎(chǔ)上,團(tuán)隊(duì)推出了多項(xiàng)技術(shù)調(diào)整:

動(dòng)態(tài)概率歸一化:通過動(dòng)態(tài)調(diào)整,將相似度映射到更適合采樣的概率范圍。節(jié)點(diǎn)局部性:引入局部性的概念,僅在局部節(jié)點(diǎn)子集之間建立連接,以模擬現(xiàn)實(shí)世界中的網(wǎng)絡(luò)局部性。圖拓?fù)淠J阶⑷耄菏褂脠D卷積網(wǎng)絡(luò)修改節(jié)點(diǎn)表示,以更好地適應(yīng)圖結(jié)構(gòu)特征并減少分布偏差。上述步驟保證了生成的圖數(shù)據(jù)不僅豐富多樣,而且接近現(xiàn)實(shí)世界的連接模式和結(jié)構(gòu)特征。

實(shí)驗(yàn)驗(yàn)證和性能分析需要注意的是,本實(shí)驗(yàn)側(cè)重于使用僅由LLM生成的數(shù)據(jù)集訓(xùn)練OpenGraph模型,并在多樣化的真實(shí)場(chǎng)景數(shù)據(jù)集上進(jìn)行測(cè)試,涵蓋節(jié)點(diǎn)分類和鏈路預(yù)測(cè)任務(wù)。

實(shí)驗(yàn)設(shè)計(jì)如下:

零樣本設(shè)置。

為了評(píng)估OpenGraph 在未見過的數(shù)據(jù)上的性能,我們?cè)谏傻挠?xùn)練集上訓(xùn)練模型,然后在完全不同的真實(shí)測(cè)試集上對(duì)其進(jìn)行評(píng)估。它確保訓(xùn)練和測(cè)試數(shù)據(jù)在節(jié)點(diǎn)、邊和特征上沒有重疊。

很少有示例設(shè)置。

考慮到許多方法難以有效地執(zhí)行零樣本預(yù)測(cè),我們引入了少樣本設(shè)置,其中基線模型在預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,然后使用k 樣本樣本進(jìn)行微調(diào)。

2 個(gè)任務(wù)和8 個(gè)測(cè)試集的結(jié)果表明,OpenGraph 在零樣本預(yù)測(cè)方面顯著優(yōu)于現(xiàn)有方法。

此外,現(xiàn)有的預(yù)訓(xùn)練模型有時(shí)比在跨數(shù)據(jù)集任務(wù)上從頭開始訓(xùn)練的模型表現(xiàn)更差。

圖Tokenizer設(shè)計(jì)的影響研究同時(shí),團(tuán)隊(duì)探索了圖Tokenizer設(shè)計(jì)如何影響模型性能。

首先,通過實(shí)驗(yàn)發(fā)現(xiàn),不進(jìn)行鄰接矩陣平滑(平滑階數(shù)為0)會(huì)明顯降低性能,說明平滑的必要性。

然后,研究人員嘗試了幾種簡(jiǎn)單的拓?fù)涓兄娲桨福嚎鐢?shù)據(jù)集的單熱編碼ID、隨機(jī)映射和基于節(jié)點(diǎn)度的表示。

實(shí)驗(yàn)結(jié)果表明這些替代方案的性能并不理想。

具體來說,跨數(shù)據(jù)集的ID 表示最差,基于度的表示也表現(xiàn)不佳,而隨機(jī)映射雖然稍好一些,但與優(yōu)化的拓?fù)涓兄成湎啾染哂酗@著的性能差距。

數(shù)據(jù)生成技術(shù)的影響該團(tuán)隊(duì)研究了不同預(yù)訓(xùn)練數(shù)據(jù)集對(duì)OpenGraph 性能的影響,包括使用基于LLM 的知識(shí)蒸餾方法生成的數(shù)據(jù)集,以及幾個(gè)現(xiàn)實(shí)世界的數(shù)據(jù)集。

實(shí)驗(yàn)中對(duì)比的預(yù)訓(xùn)練數(shù)據(jù)集包括1個(gè)從團(tuán)隊(duì)生成方式中去除某種技術(shù)后的數(shù)據(jù)集、2個(gè)與測(cè)試數(shù)據(jù)集無關(guān)的真實(shí)數(shù)據(jù)集(Yelp2018和Gowalla)、1個(gè)真實(shí)數(shù)據(jù)集與測(cè)試數(shù)據(jù)集類似。數(shù)據(jù)集(ML-10M)。

實(shí)驗(yàn)結(jié)果表明,生成的數(shù)據(jù)集在所有測(cè)試集上都表現(xiàn)出了良好的性能;刪除三代技術(shù)顯著影響性能,驗(yàn)證了這些技術(shù)的有效性。

當(dāng)使用與測(cè)試集無關(guān)的真實(shí)數(shù)據(jù)集(例如Yelp 和Gowalla)進(jìn)行訓(xùn)練時(shí),性能有時(shí)會(huì)下降,這可能是由于不同數(shù)據(jù)集之間的分布差異所致。

ML-10M 數(shù)據(jù)集在ML-1M 和ML-10M 等類似測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能,凸顯了訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集之間相似性的重要性。

Transformer采樣技術(shù)研究在這部分實(shí)驗(yàn)中,研究團(tuán)隊(duì)探索了圖Transformer模塊中使用的兩種采樣技術(shù):

令牌序列采樣(Seq)和錨點(diǎn)采樣(Anc)。

他們對(duì)兩種采樣方法進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),以評(píng)估它們對(duì)模型性能的具體影響。

實(shí)驗(yàn)結(jié)果表明,令牌序列采樣和錨點(diǎn)采樣都可以有效降低模型在訓(xùn)練和測(cè)試階段的空間和時(shí)間復(fù)雜度。這對(duì)于處理大規(guī)模圖數(shù)據(jù)尤其重要,可以顯著提高效率。

從性能角度來看,令牌序列采樣對(duì)模型的整體性能有積極的影響。這種采樣策略通過選擇關(guān)鍵標(biāo)記來優(yōu)化圖的表示,從而提高模型處理復(fù)雜圖結(jié)構(gòu)的能力。

相比之下,DDI 數(shù)據(jù)集上的實(shí)驗(yàn)表明錨點(diǎn)采樣會(huì)對(duì)模型性能產(chǎn)生負(fù)面影響。錨點(diǎn)采樣通過選擇特定節(jié)點(diǎn)作為錨點(diǎn)來簡(jiǎn)化圖結(jié)構(gòu),但這種方法可能會(huì)忽略一些關(guān)鍵的圖結(jié)構(gòu)信息,從而影響模型的準(zhǔn)確性。

綜上所述,雖然兩種采樣技術(shù)各有優(yōu)勢(shì),但在實(shí)際應(yīng)用中,需要根據(jù)具體的數(shù)據(jù)集和任務(wù)要求仔細(xì)選擇合適的采樣策略。

研究結(jié)論本研究旨在開發(fā)一種高度適應(yīng)性的框架,能夠準(zhǔn)確識(shí)別和解析各種圖結(jié)構(gòu)的復(fù)雜拓?fù)淠J健?

研究人員的目標(biāo)是通過充分利用所提出模型的功能,顯著增強(qiáng)模型在零樣本圖學(xué)習(xí)任務(wù)(包括多個(gè)下游應(yīng)用)中的泛化能力。

該模型是在可擴(kuò)展的圖Transformer 架構(gòu)和LLM 增強(qiáng)的數(shù)據(jù)增強(qiáng)機(jī)制的支持下構(gòu)建的,以提高OpenGraph 的效率和魯棒性。

通過對(duì)多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集的廣泛測(cè)試,團(tuán)隊(duì)展示了模型出色的泛化性能。

據(jù)了解,作為構(gòu)建基于圖的模型的初步嘗試,未來團(tuán)隊(duì)的工作重點(diǎn)將放在增加框架的自動(dòng)化能力上,包括自動(dòng)識(shí)別噪聲連接和進(jìn)行反事實(shí)學(xué)習(xí)。

同時(shí),團(tuán)隊(duì)計(jì)劃學(xué)習(xí)并提取各種圖結(jié)構(gòu)的通用且可遷移的模式,以進(jìn)一步提升模型的應(yīng)用范圍和效果。

參考鏈接:

[1]論文:

https://arxiv.org/pdf/2403.01121.pdf

[2] 源碼庫:

https://github.com/HKUDS/OpenGraph

- 超過-

量子位QbitAI·今日頭條簽約

關(guān)注我們,第一時(shí)間了解前沿技術(shù)動(dòng)態(tài)

為您推薦

想去香港讀碩士?來看看香港大學(xué)(HKU)保姆級(jí)申請(qǐng)攻略!

想去香港讀碩士?來看看香港大學(xué)(HKU)保姆級(jí)申請(qǐng)攻略!前言:這是來自公眾號(hào)索斯留學(xué)關(guān)于想去香港讀碩士?來看看香港大學(xué)(HKU)保姆級(jí)申請(qǐng)攻略!的一篇文章。對(duì)于許多想要在國(guó)際舞臺(tái)上發(fā)展自己的年輕人來說,香港的高等教育是一個(gè)很好的選擇。作為一

2024-06-06 23:18

香港大學(xué)青年科創(chuàng)學(xué)院在前海揭牌,香港大學(xué)青年科創(chuàng)學(xué)院招聘

深圳商報(bào)·讀創(chuàng)客戶端記者 范宏韜5月8日,香港大學(xué)和前海管理局在深圳前海舉辦香港大學(xué)青年科創(chuàng)學(xué)院揭牌儀式。香港大學(xué)青年科創(chuàng)學(xué)院旨在打造香港大學(xué)、香港青年在大灣區(qū)創(chuàng)新創(chuàng)業(yè)及技術(shù)轉(zhuǎn)化的重要空間和平臺(tái),是深港深度融合發(fā)展引領(lǐng)區(qū)的標(biāo)桿示范項(xiàng)目。前海

2024-06-06 23:17

香港大學(xué)青年科創(chuàng)學(xué)院在深圳前海揭牌,首批入駐項(xiàng)目揭曉(香港青年創(chuàng)新創(chuàng)業(yè)協(xié)會(huì)有限公司)

南都訊 記者王睦廣 5月8日,香港大學(xué)和深圳市前海管理局在深圳前海舉辦香港大學(xué)青年科創(chuàng)學(xué)院揭牌儀式。據(jù)悉,香港大學(xué)青年科創(chuàng)學(xué)院落地前海,旨在打造香港大學(xué)技術(shù)轉(zhuǎn)移和科技成果轉(zhuǎn)化、香港青年在大灣區(qū)創(chuàng)新創(chuàng)業(yè)的重要平臺(tái),致力建設(shè)成為前海深港深度融合

2024-06-06 23:16

廣州建筑與香港大學(xué)土木工程系簽署戰(zhàn)略合作框架協(xié)議

近日,在住建部科技與產(chǎn)業(yè)化發(fā)展中心見證下,廣州建筑集團(tuán)與香港大學(xué)土木工程系簽署戰(zhàn)略合作框架協(xié)議。住建部科技與產(chǎn)業(yè)化發(fā)展中心黨委書記、主任劉新鋒,總工程師張鋒,綠色建筑發(fā)展處處長(zhǎng)梁浩,香港大學(xué)土木工程系主任、香港大學(xué)建造及基建創(chuàng)新研究中心執(zhí)行

2024-06-06 23:16

蘋果回應(yīng)下架香港“暴徒好幫手”App:威脅到了公共安全

【環(huán)球網(wǎng)報(bào)道 記者 劉洋 丁潔蕓】美國(guó)CNBC網(wǎng)站消息,蘋果公司周三宣布將一款可以被香港暴徒用于追蹤警察位置的APP下架,理由是該APP可以被罪犯用于伏擊警察,或用于躲開警察傷害居民而違反相關(guān)規(guī)則。報(bào)道稱,蘋果公司最初就曾拒絕這款名為“HK

2024-06-06 23:15

蘋果上架app為香港暴徒“導(dǎo)航”,人民日?qǐng)?bào):你想清楚了嗎?

近日,蘋果公司重新上架一款曾被其禁止上架的香港地圖應(yīng)用。該應(yīng)用名為提供交通資訊、方便市民出行,實(shí)則通報(bào)警方行蹤、便利暴徒從事違法活動(dòng)。圖源:《南華早報(bào)》這款應(yīng)用名為“HKmap.live”,是一個(gè)名為“HKmap.live全港抗?fàn)幖磿r(shí)地圖”

2024-06-06 23:15

加載中...