美國(guó)留學(xué)選擇什么專(zhuān)業(yè)好?留學(xué)美國(guó)熱門(mén)專(zhuān)業(yè)推薦
2019-06-26
更新時(shí)間:2024-08-13 03:33作者:小樂(lè)
近日,美國(guó)斯坦福大學(xué)的團(tuán)隊(duì)提出了一種新的基于大語(yǔ)言模型表示的微調(diào)方法,稱(chēng)為ReFT。該方法通過(guò)訓(xùn)練干預(yù)模塊來(lái)干預(yù)模型表示,以達(dá)到訓(xùn)練目標(biāo)。近日,預(yù)印本網(wǎng)站arXiv上發(fā)表了一篇題為《ReFT:針對(duì)大語(yǔ)言模型基于表征的微調(diào)方法》(ReFT: Representation Finetuning for Language Models)的相關(guān)論文[1]。斯坦福大學(xué)博士生吳正軒和Araman Arora為共同第一作者,Christopher Potts教授為通訊作者。
圖丨相關(guān)論文(來(lái)源:arXiv)
吳正軒是斯坦福大學(xué)自然語(yǔ)言處理組的博士生。這項(xiàng)研究的設(shè)計(jì)思路來(lái)自于一次偶然的實(shí)驗(yàn)。當(dāng)時(shí),他和兩個(gè)合作者想證實(shí)一個(gè)猜想:通過(guò)訓(xùn)練一個(gè)小的表示干預(yù)模塊,一個(gè)大模型是否可以總是輸出“對(duì)不起,我不知道”?結(jié)果,他們?cè)谥桓淖兙€性子空間中的單個(gè)神經(jīng)元的情況下做到了這一點(diǎn)。在此基礎(chǔ)上,開(kāi)發(fā)了ReFT。需要理解的是,模型表示沒(méi)有參數(shù),它是模型在線生成的產(chǎn)物。現(xiàn)有的針對(duì)大型模型的參數(shù)高效微調(diào)(PEFT)通常需要訓(xùn)練少量的模型參數(shù),或者為新添加的適配器微調(diào)少量的參數(shù),或者像前綴詞微調(diào)一樣訓(xùn)練少量的詞向量。吳正軒說(shuō):“我們?cè)黾恿恕碚鞲深A(yù)模塊’的概念,它負(fù)責(zé)修改具體的表征,以達(dá)到訓(xùn)練目標(biāo)?!?
圖丨吳正軒(來(lái)源:吳正軒)
干預(yù)的表示通常是極少數(shù)標(biāo)記位置的表示,以幫助研究人員保存訓(xùn)練參數(shù)。輸入序列中的時(shí)間概念是關(guān)鍵?,F(xiàn)有的PEFT 通常忽略時(shí)間的概念,而是對(duì)模型產(chǎn)生的表示進(jìn)行全局修改。換句話說(shuō),每一層、每一段對(duì)應(yīng)的表示都會(huì)發(fā)生變化,以達(dá)到訓(xùn)練目標(biāo)。 “我們認(rèn)為這是不必要的。通常,大型模型的表示已經(jīng)有了非常有意義的表示。例如,單詞在空間向量中的位置和單詞的含義通常是相關(guān)的?!眳钦幷f(shuō)。基于此,研究團(tuán)隊(duì)推測(cè),如果只修改一小部分表示,是否可以達(dá)到訓(xùn)練目標(biāo)?模型和可解釋性為其方法提供了理論基礎(chǔ)。在ReFT之前,該領(lǐng)域已經(jīng)有一些表示修改方法可以實(shí)現(xiàn)控制模型輸出的能力。不同的是,團(tuán)隊(duì)提出的LoReFT方法是基于“線性子空間”的概念。線性子空間來(lái)源于早期神經(jīng)網(wǎng)絡(luò)的相關(guān)研究[2-4],這些研究都提出了一個(gè)假設(shè):神經(jīng)網(wǎng)絡(luò)學(xué)到的概念存在于線性子空間中。吳正軒表示,基于這些理論基礎(chǔ),課題組提出的新方法在表示的線性子空間中進(jìn)行了修改,命名為L(zhǎng)oReFT。
(來(lái)源:arXiv)
“在這個(gè)示意圖中,我們干預(yù)了前兩個(gè)和后兩個(gè)分詞對(duì)應(yīng)的所有層的表示?!眳钦幷f(shuō)道。 ReFT 允許研究人員跨不同時(shí)間步驟和地點(diǎn)進(jìn)行干預(yù)。到目前為止,他們只對(duì)提示詞進(jìn)行干預(yù)。當(dāng)跨層干預(yù)時(shí),權(quán)重不共享。 “我們還沒(méi)有嘗試干預(yù)特定的因果路徑,”他說(shuō)。 “更復(fù)雜的ReFT 或自動(dòng)ReFT 希望效果更好。能夠更好地控制數(shù)學(xué)推理的ReFT 會(huì)很酷?!?ReFT 依賴于解釋性工作的見(jiàn)解,并且反過(guò)來(lái)可能能夠?yàn)樵擃I(lǐng)域貢獻(xiàn)見(jiàn)解。 “我們希望能夠從更積極的角度來(lái)解釋我們的模型,而不是將它們視為可以修剪和理解的靜態(tài)參考對(duì)象,并且可以從模型中創(chuàng)建有用且可解釋的抽象?!眳钦幷f(shuō)。
(來(lái)源:arXiv)
一般來(lái)說(shuō),很多人只關(guān)注模型的權(quán)重更新是如何通過(guò)訓(xùn)練得出的。通過(guò)這項(xiàng)研究,研究團(tuán)隊(duì)將把“干預(yù)”的概念呈現(xiàn)給更多的研究者。 “表示干預(yù)實(shí)際上節(jié)省了計(jì)算能力,有更多的擴(kuò)展空間,并且不會(huì)對(duì)推理時(shí)間造成太大損失。”吳正軒說(shuō)道。雖然ReFT 展示了對(duì)齊的可能性,但研究小組也期待通過(guò)干預(yù)訓(xùn)練或編輯表征來(lái)完成它。通過(guò)微調(diào)表示,您實(shí)質(zhì)上創(chuàng)建了一個(gè)灰盒模型,用戶可以在該模型上進(jìn)行部分控制,并了解模型在干預(yù)條件下的行為方式。換句話說(shuō),你能做的因果抽象越多,你獲得的控制力就越多。吳正軒表示:“出乎意料的是,ReFT達(dá)到或非常接近最先進(jìn)的水平(SOTA,State of the Art),這意味著我們的語(yǔ)言模型在其表示空間上有更多的探索潛力。 ”。參考:1.https://arxiv.org/pdf/2404.035922.https://web.stanford.edu/~jlmcc/papers/PDP/Volume%202/Chap22_PDP86.pdf3.https://direct.mit.edu/books/monograph/4424/Parallel-Distributed-Processing- Volume4.https://arxiv.org/abs/2402.15179操作/排版:何晨龍