美國(guó)留學(xué)選擇什么專(zhuān)業(yè)好?留學(xué)美國(guó)熱門(mén)專(zhuān)業(yè)推薦
2019-06-26
更新時(shí)間:2024-08-06 13:47作者:小樂(lè)
1. 結(jié)論上一篇論文提出了參數(shù)高效稀疏工藝(PESC),它使用MoE架構(gòu)將稠密模型升級(jí)為稀疏模型。 PESC 在稀疏模型的MoE 層引入了適配器,使得無(wú)需修改每個(gè)專(zhuān)家的單獨(dú)權(quán)重即可區(qū)分專(zhuān)家。該技術(shù)顯著降低了計(jì)算成本和GPU 內(nèi)存需求。它可以通過(guò)集成適配器以最小的參數(shù)增加來(lái)擴(kuò)展模型容量。論文將PESC方法應(yīng)用于各種通用任務(wù)的指令調(diào)優(yōu),并在各種基準(zhǔn)測(cè)試中取得了顯著的性能提升。此外,本文利用PESC方法開(kāi)發(fā)了駱駝科稀疏模型。 Camelidae-834B在所有開(kāi)源稀疏模型中實(shí)現(xiàn)了SOTA性能,并且表現(xiàn)出比GPT-3.5更好的通用能力。
2 論文簡(jiǎn)介2.1 論文背景LLM 突出的訓(xùn)練方法是指令調(diào)優(yōu)。這種方法利用大規(guī)模、格式良好的指令數(shù)據(jù),使法學(xué)碩士能夠調(diào)整其預(yù)先訓(xùn)練的表示以匹配人類(lèi)指令。這種指令調(diào)整的LLM 在NLP 任務(wù)中展示了出色的泛化能力。這種概括需要對(duì)跨多個(gè)領(lǐng)域(例如數(shù)學(xué)、編碼、生物學(xué)等)的廣泛指令跟蹤任務(wù)進(jìn)行培訓(xùn)。然而,這些任務(wù)固有的復(fù)雜性可能會(huì)阻礙模型的微調(diào)。具體來(lái)說(shuō),某些規(guī)模的模型可能難以優(yōu)化沖突任務(wù)的損失,從而導(dǎo)致一般任務(wù)的性能不佳。
縮放定律指出,增加模型大小對(duì)于提高性能至關(guān)重要。擴(kuò)展模型容量可以改進(jìn)一般任務(wù)的指令調(diào)整。盡管如此,大多數(shù)LLM 都是基于Transformer 架構(gòu)設(shè)計(jì)的密集預(yù)訓(xùn)練模型,這限制了指令調(diào)優(yōu)期間的可擴(kuò)展性。將密集模型升級(jí)為稀疏激活混合專(zhuān)家(MoE)模型具有更大的容量。值得注意的是,MoE 模型比密集模型對(duì)指令調(diào)整的響應(yīng)更靈敏。因此,在指令調(diào)優(yōu)期間將密集模型轉(zhuǎn)換為MoE 模型有可能在一般任務(wù)上實(shí)現(xiàn)優(yōu)異的性能。此轉(zhuǎn)換涉及將MoE 模型中的每個(gè)專(zhuān)家初始化為原始前饋神經(jīng)網(wǎng)絡(luò)(FFN) 層的副本。考慮到目前LLM的參數(shù)規(guī)模,訓(xùn)練如此龐大的模型需要更新MoE層專(zhuān)家的權(quán)重,而這受到GPU內(nèi)存資源和計(jì)算成本的限制。
2.2 論文計(jì)劃為了緩解這些資源和成本挑戰(zhàn),本文提出了參數(shù)有效稀疏性制作(PESC),這是一種與PEFT技術(shù)協(xié)同有效擴(kuò)展模型容量的方法。 PESC涉及在稀疏模型的MoE層中插入適配器,允許在不改變MoE層中每個(gè)專(zhuān)家的權(quán)重的情況下區(qū)分專(zhuān)家。此外,論文還應(yīng)用常見(jiàn)的PEFT方法QLoR技術(shù)來(lái)更新稀疏模型中的其他權(quán)重。
圖1. 稀疏生產(chǎn)概述
圖1所示是一個(gè)參數(shù)化高效稀疏生產(chǎn)的綜合框架,它與稀疏生產(chǎn)和參數(shù)化高效技術(shù)相配合。
生產(chǎn)稀疏
稀疏生產(chǎn)需要利用密集模型的原始權(quán)重。如圖1 所示,該過(guò)程涉及用MoE 層替換每個(gè)密集Transformer 塊中的FFN 層,從而創(chuàng)建新的稀疏Transformer 塊。每個(gè)MoE層由一個(gè)路由器和幾個(gè)獨(dú)立的參數(shù)高效專(zhuān)家組成。同時(shí),其他層(例如歸一化層和注意力層)從密集變壓器塊復(fù)制到稀疏變壓器塊,以確保結(jié)構(gòu)一致性。
混合專(zhuān)家路由策略
在稀疏變壓器塊中,MoE 層包含指定數(shù)量的專(zhuān)家。路由器采用softmax 激活函數(shù)來(lái)對(duì)這些專(zhuān)家的概率分布進(jìn)行建模,反映每個(gè)專(zhuān)家處理傳入令牌的能力。集成到稀疏變換器塊中的路由器權(quán)重(標(biāo)記為Wr)最初是隨機(jī)初始化的。路由策略在MoE層起著關(guān)鍵作用,影響后續(xù)模型的學(xué)習(xí)。
Top-2 門(mén)路由器:圖1 演示了在稀疏變壓器塊中使用Top-2 門(mén)路由器。對(duì)于輸入序列中的每個(gè)令牌,路由器都會(huì)激活n 個(gè)專(zhuān)家中的兩個(gè)最合適的專(zhuān)家。路由器收到輸入的token后,生成路由器邏輯。 KeepTop2 函數(shù)在對(duì)可用的n 個(gè)專(zhuān)家進(jìn)行softmax 分布標(biāo)準(zhǔn)化之前執(zhí)行。 KeepTop2 函數(shù)應(yīng)該用于僅保留路由器邏輯的前兩個(gè)值,將其余值分配給-,在softmax 歸一化后有效地將它們歸零。
專(zhuān)家負(fù)載均衡:通過(guò)其門(mén)控機(jī)制,Top-2門(mén)路由器往往會(huì)不成比例地偏向某些專(zhuān)家,導(dǎo)致這些專(zhuān)家接受更頻繁的培訓(xùn),導(dǎo)致路由器選擇不平衡。為了抵消這種不平衡并促進(jìn)專(zhuān)家的統(tǒng)一利用,每個(gè)稀疏變壓器塊在訓(xùn)練期間集成了建議的輔助損失。
參數(shù)高效的混合專(zhuān)家
稀疏制造將其從FFN 層擴(kuò)展到MoE 層,將每個(gè)專(zhuān)家初始化為原始FFN 層的副本。盡管在訓(xùn)練過(guò)程中專(zhuān)家被稀疏地激活,但由于LLM中FFN層的參數(shù)數(shù)量較多,該方法會(huì)產(chǎn)生大量的內(nèi)存成本。此外,Top-2 門(mén)路由器用于為MoE 層中的每個(gè)輸入令牌激活兩名專(zhuān)家,而不是常規(guī)FFN 層中的一名專(zhuān)家,從而增加訓(xùn)練和推理時(shí)間。為了應(yīng)對(duì)這些挑戰(zhàn),我們通過(guò)集成適配器引入?yún)?shù)高效的MoE 層,以更參數(shù)高效的方式實(shí)現(xiàn)稀疏性。
2.3 論文效果論文貢獻(xiàn)如下:
提出了參數(shù)高效稀疏變換(PESC),這是一種參數(shù)高效調(diào)整(PEFT)的創(chuàng)新方法,可以有效提升模型容量。 PESC方法被應(yīng)用于一般任務(wù)的指令調(diào)優(yōu)中,并在各種基準(zhǔn)測(cè)試中取得了顯著的性能改進(jìn)。稀疏模型,特別是駱駝科,是使用PESC 方法開(kāi)發(fā)的,在所有開(kāi)源稀疏模型中實(shí)現(xiàn)了SOTA 性能,并展示了優(yōu)于GPT-3.5 的通用能力。表1. Camelidae-834B 在學(xué)術(shù)基準(zhǔn)上的表現(xiàn)。 Camelidae-834B模型與SOTA開(kāi)源稀疏聊天模型和各種零/少鏡頭密集模型進(jìn)行了詳細(xì)比較。值得注意的是,Camelidae-834B 在除HellaSwag 之外的幾乎所有基準(zhǔn)測(cè)試中都優(yōu)于SOTA 稀疏模型,表明有顯著的改進(jìn)。此外,與大多數(shù)密集模型相比,Camelidae-834B 顯示出優(yōu)異的性能,甚至在某些方面可以與GPT-3.5 相媲美。我們提出了每項(xiàng)任務(wù)的性能指標(biāo),重點(diǎn)關(guān)注零樣本或少樣本評(píng)估下模型的有效性。我們單獨(dú)將稀疏模型和所有模型的最高分加粗
表2. 與密集模型和稀疏模型相比,分組學(xué)術(shù)基準(zhǔn)的總體表現(xiàn)
圖片-20240121011515979
表3. MMLU 基準(zhǔn)測(cè)試的五次測(cè)試性能
表4. 數(shù)學(xué)推理任務(wù)比較
表5. Human-Eval 和MBPP 上的代碼生成結(jié)果
表6. 各種常識(shí)推理任務(wù)的零樣本性能
表7. 世界知識(shí)任務(wù)的完整匹配性能比較(零樣本)
論文標(biāo)題:從密集到專(zhuān)家混合的參數(shù)高效稀疏性設(shè)計(jì),用于一般任務(wù)的指令調(diào)整
論文鏈接:https://arxiv.org/abs/2401.02731