美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時間:2024-06-09 13:46作者:小樂
編輯:艾倫
【新智元簡介】思想鏈技術(shù)或?qū)⒈煌品?!紐約大學(xué)的最新研究表明,大模型并沒有利用思維鏈的推理能力,它只是偷偷地添加了計算!流行的思維鏈技術(shù)或?qū)⒈煌品?!您是否仍然對大型模型能夠利用思維鏈一步步思考感到驚訝?還在為寫不出思維鏈提示詞而苦惱嗎?紐約大學(xué)的研究人員表示:“沒關(guān)系,都一樣?!蓖评聿襟E并不重要。如果您不愿意,可以不必寫提示詞,只需使用省略號即可。
論文地址:https://arxiv.org/pdf/2404.15758 這篇文章的標(biāo)題甚至直接用“讓我們逐點思考”來與“讓我們一步一步思考”的思維鏈條進(jìn)行對比,可見“省略”的威力。 “點點點”的威力研究人員發(fā)現(xiàn),如果將思想鏈(CoT)推理中的具體步驟換成無意義的“……”,推理結(jié)果將會大不相同。例如,在下面的示例中:讓模型計算前6 個數(shù)字中有多少個大于5。
如果直接提出問題并讓模型回答,結(jié)果將令人難以置信:6 中的6 會被數(shù)到7。相反,使用思維鏈提示,模型會逐步比較大小,然后最終得到正確答案:“25、75、15、85、25、85,這是3位數(shù)字。”但更離譜的是本文采用的“玄學(xué)”方法:不需要寫步驟,只需要輸出相同數(shù)量的“點”(點),并且不影響最終結(jié)果。 —— 這不是巧合。大量實驗證明后兩種方法的性能接近。換句話說,我們以為模型性能的提升來自于“一步步思考”,但實際上可能只是因為LLM獲得了更多代幣的算力!你以為模型在思考,但實際上它是在燒烤。
—— 愚蠢的人類,你居然試圖教我如何用幼稚的例子推理。你知道嗎,我想要的始終是計算。 “思想鎖鏈從來沒有存在過,將來也不會存在”(后藤)。文章作者Jacob Pfau 表示,這項工作證明了該模型并沒有受益于思維鏈帶來的語言推理。使用重復(fù)的“.”來填充token可以達(dá)到與CoT相同的效果。
當(dāng)然,這也引發(fā)了對齊問題:因為這一事實表明模型可以執(zhí)行在CoT 中不可見的隱藏推理,并且在某種程度上超出了人類的控制范圍。
文章的結(jié)論令網(wǎng)友震驚,可以說顛覆了我們長久以來的認(rèn)知。有網(wǎng)友表示:我學(xué)到了面膜的精髓。
“這真正意味著什么:模型可以在我們不知情的情況下使用這些標(biāo)記獨立思考?!?
有網(wǎng)友表示,難怪我打字時總喜歡用“……”。
有網(wǎng)友直接開始實際測試:
雖然不知道他的理解是否正確,但有網(wǎng)友認(rèn)為LLM隱藏在思維鏈中的推理是沒有根據(jù)的。畢竟,大型模型的輸出原則上是基于概率,而不是通過有意識的思考。 CoT 提示僅使統(tǒng)計模式的子集變得明確。模型通過生成與模式一致的文本來模擬推理,但它們沒有能力驗證或反映其輸出。一點一點地思考當(dāng)面對復(fù)雜的問題時,我們?nèi)祟悤乱庾R地進(jìn)行一步一步的推理。
受此啟發(fā),Google 研究人員在2022 年發(fā)表了著名的Chain-of-Thought,要求語言模型逐步解決問題的方法,使得模型能夠解決以前看似無法解決的問題,顯著提升LLM 的性能,或者挖掘LLM的潛力。
論文地址:https://arxiv.org/pdf/2201.11903 雖然一開始大家都不知道這個東西為什么管用,但很快就被傳播開來,因為它真的很好用。
隨著大型模型和即時Word項目的起飛,CoT已成為LLM解決復(fù)雜問題的有力工具。當(dāng)然,這個過程中也有很多研究團隊在探索CoT的工作原理。
該模型不具備推理思維鏈帶來的性能提升。模型真的是一步步學(xué)習(xí)解決問題,還是只是因為令牌數(shù)量變長帶來的額外計算量?既然你不確定邏輯推理是否有效,那就根本不使用邏輯,將所有推理步驟替換為“.”,這肯定是沒有用的。這些稱為填充令牌。研究人員使用了“小羊駝”模型:一個34M 參數(shù)的Llama,有4 層、384 個隱藏維度和6 個注意力頭。模型參數(shù)是隨機初始化的。這里考慮兩個問題:
(1) 哪些類型的評估數(shù)據(jù)可以從填充令牌中受益(2) 需要什么樣的訓(xùn)練數(shù)據(jù)來教導(dǎo)模型使用填充令牌
對此,研究人員設(shè)計了2個任務(wù)并構(gòu)建了相應(yīng)的合成數(shù)據(jù)集。每個數(shù)據(jù)集都強調(diào)了不同的條件,在該條件下填充令牌可以為Transformer 提供性能改進(jìn)。 3SUM 讓我們看看第一個更困難的任務(wù):3SUM。要求模型在序列中選擇三個滿足條件的數(shù)字。例如,三個數(shù)相加除以10 余數(shù)為0。
在最壞的情況下,這個任務(wù)的復(fù)雜度是N的3次方,而Transformer層之間的計算復(fù)雜度是N的2次方。因此,當(dāng)輸入序列長度非常大時,3SUM問題自然會超過Transformer 的表達(dá)能力。實驗設(shè)置了三組控制: 1. 填充標(biāo)記:序列使用重復(fù)的“.”作為中間填充,如“A05B75 C22 D13 : ANS True”。每個點代表一個單獨的token,對應(yīng)下面思維鏈中的token。 2.可并行CoT解,序列形式為:“A05 B75 C22 D13 : AB 70 AC 27 AD 18 BC 97 BD 88 CD B ANS True”。思想鏈通過寫出所有相關(guān)的中間和,將一個3SUM 問題簡化為一系列2SUM 問題(如下圖所示)。這種方法將問題的計算量減少到N次方?!猅ransformer可以處理,并且可以并行化。
3. 自適應(yīng)CoT解,序列的形式為:“A15 B75 C22 D13 : A B C 15 75 22 2 B C D 75 22 13 0 ANS True”。與上述方案巧妙地將3SUM分解為可并行的子問題不同,這里我們希望利用啟發(fā)式方法生成靈活的思維鏈來模仿人類推理。這種實例自適應(yīng)計算與填充令牌計算的并行結(jié)構(gòu)不兼容。
從上圖的結(jié)果可以看出,在不輸出padding token的情況下,模型的準(zhǔn)確率一般會隨著序列變長而下降,而當(dāng)使用padding token時,準(zhǔn)確率仍保持在100%。 2SUM-Transform 第二個任務(wù)是2SUM-Transform。只需要判斷兩個數(shù)之和是否滿足要求即可。計算量由Transformer控制。
然而,為了防止模型“作弊”,輸入的標(biāo)記是就地計算的,輸入的每個數(shù)字都會移動隨機偏移量。
結(jié)果如上表所示:填充令牌法的準(zhǔn)確率達(dá)到93.6%,非常接近Chain-of-Thought。沒有中間填充,準(zhǔn)確率只有78.7%。但這種改進(jìn)僅僅是由于訓(xùn)練數(shù)據(jù)的呈現(xiàn)方式的差異嗎?通過正則化損失梯度?為了驗證填充標(biāo)記是否會帶來與最終預(yù)測相關(guān)的隱藏計算,研究人員凍結(jié)了模型權(quán)重,僅對最后一個注意力層進(jìn)行了微調(diào)。
上述結(jié)果表明,隨著更多的填充標(biāo)記可用,模型的準(zhǔn)確性不斷提高,這表明填充標(biāo)記確實在執(zhí)行與3SUM 預(yù)測任務(wù)相關(guān)的隱藏計算。
局限性雖然填充代幣的方法很玄學(xué)、很神奇,甚至很有效,但現(xiàn)在說思維鏈條被顛覆還為時過早。作者還表示,填充token的方法并沒有突破Transformer計算復(fù)雜度的上限。此外,學(xué)習(xí)使用填充令牌需要特定的訓(xùn)練過程。比如本文就采用了強化監(jiān)督的方式,使得模型最終收斂。不過,有些問題可能已經(jīng)浮出水面,比如隱藏的安全問題,比如提示詞項目是否有一天會突然不復(fù)存在?