美國留學(xué)選擇什么專業(yè)好?留學(xué)美國熱門專業(yè)推薦
2019-06-26
更新時間:2024-06-07 20:15作者:小樂
西風(fēng)蕭蕭發(fā)表者:奧飛斯量子比特|公眾號QbitAI
業(yè)界領(lǐng)先大機(jī)型居然集體“越獄”!
不僅是GPT-4,平時不會出錯的Bard和Bing Chat也失控了。有些人想要入侵網(wǎng)站,有些人甚至威脅要設(shè)計惡意軟件來入侵銀行系統(tǒng):
這并非危言聳聽,而是南洋理工大學(xué)等四所大學(xué)提出的一種“越獄”大型模型的新方法——MasterKey。
使用它,大型模型的“越獄”成功率從平均7.3%飆升至21.5%。
研究中,欺騙GPT-4、Bard、Bing等大型模型“越獄”的人竟然是大型模型——。
只要利用大模型的學(xué)習(xí)能力,讓它掌握各種“詐騙腳本”,它就可以自動寫出提示詞,誘導(dǎo)其他大模型“禍害天下、明理”。
那么,與其他大機(jī)型越獄方法相比,MasterKey有什么區(qū)別呢?
我們采訪了論文作者之一、南洋理工大學(xué)計算機(jī)科學(xué)教授、MetaTrust 聯(lián)合創(chuàng)始人劉洋,了解這項研究的具體細(xì)節(jié)以及大模型安全的現(xiàn)狀。
要了解防御機(jī)制并“對癥下藥”,我們先來看看MasterKey是如何成功“越獄”大型模型的。
這個過程分為兩個部分:找出弱點并制定正確的補(bǔ)救措施。
第一部分“尋找弱點”,找出大型模型的防御機(jī)制。
這部分將對現(xiàn)有的主流大模型進(jìn)行逆向工程,從內(nèi)到外掌握不同大模型的防御方法:有的防御機(jī)制只檢查輸入,有的防御機(jī)制只檢查輸出;有的只檢查關(guān)鍵詞,但也有完整檢查每句話的意思等。
例如,作者檢查發(fā)現(xiàn),與ChatGPT相比,Bing Chat和Bard的防御機(jī)制檢查大型模型輸出結(jié)果。
與“各種”輸入攻擊方式相比,直接審計輸出內(nèi)容更加直接,更不容易產(chǎn)生Bug。
此外,它們還會動態(tài)監(jiān)控全周期生成狀態(tài),并兼具關(guān)鍵詞匹配和語義分析能力。
了解了大型模型的防御方法之后,就該尋找攻擊它們的方法了。
第二部分是“對癥下藥”,對一個大型欺詐模型進(jìn)行微調(diào),并誘導(dǎo)其他大型模型“越獄”。
這部分具體可以分為三個步驟。
首先,我們收集了市場上現(xiàn)有的大模型成功“越獄”案例,例如著名的奶奶漏洞(攻擊者冒充奶奶,打情感牌,要求大模型提供非法操作思路),并創(chuàng)建一組“越獄”數(shù)據(jù)集。
然后,基于這個數(shù)據(jù)集,持續(xù)訓(xùn)練+任務(wù)導(dǎo)向,有目的地微調(diào)一個大的“欺詐”模型,使其能夠自動生成誘導(dǎo)提示詞。
最后,模型進(jìn)一步優(yōu)化,使其能夠靈活生成各類提示詞,繞過不同主流模型的防御機(jī)制。
事實證明MasterKey非常有效,平均“詐騙”成功率為21.58%(輸入100個提示詞,平均21次即可成功“越獄”其他大型機(jī)型),在一系列機(jī)型中表現(xiàn)最好:
之前沒有被系統(tǒng)破解過的兩大模型谷歌Bard和微軟Bing Chat也落入了這種方法之下,被迫“越獄”。
對此,劉洋教授認(rèn)為:
安全性是0和1的問題,只有“是”或“否”。無論概率是多少,對大型模型的任何成功攻擊的潛在后果都是不可估量的。
不過,業(yè)界已經(jīng)有很多利用AI來越獄AI的方法,比如DeepMind的紅隊、賓夕法尼亞大學(xué)的PAIR,都是利用AI生成提示詞,讓模型“說錯話”。
MasterKey為何能取得這樣的成績?
劉洋教授用了一個有趣的比喻:
讓大模特誘導(dǎo)大模特越獄,本質(zhì)上就像電影《孤注一擲》中的人從事電信詐騙一樣。與其說是通過一句話來欺騙對方,不如說你真正需要掌握的其實是欺騙的劇本,也就是套路。我們收集各種“越獄”腳本并讓大模型學(xué)習(xí)它們,從而將它們集成并掌握更多樣化的攻擊方法。
簡單來說,相比很多使用AI隨機(jī)生成提示詞的越獄研究,MasterKey可以快速學(xué)習(xí)最新的越獄套路并在提示詞中使用。
這樣,如果奶奶的漏洞被堵住了,就可以利用奶奶的漏洞繼續(xù)欺騙大模型“越獄”。 (手動狗頭)
不過,以MasterKey為代表的提示詞攻擊并不是業(yè)界唯一的大型模型研究。
對于大模型本身,還有亂碼攻擊、模型架構(gòu)攻擊等方法。
這些研究適用于哪些模型?為什么MasterKey的提示詞攻擊專門選擇GPT-4、Bing Chat、Bard等商業(yè)大模型,而不是開源大模型?
劉洋教授簡單介紹了目前“攻擊”大型模型的幾種方法。
目前針對大型模型的攻擊主要有兩種類型,白盒攻擊和黑盒攻擊。
白盒攻擊需要掌握模型本身的結(jié)構(gòu)和數(shù)據(jù)(通常只能從開源大型模型中獲得),攻擊條件更高,實現(xiàn)過程更復(fù)雜;
黑盒攻擊通過輸入和輸出測試大型模型。該方法相對更直接,不需要掌握模型的內(nèi)部細(xì)節(jié)。可以通過API 來完成。
其中,黑盒攻擊主要包括提示詞攻擊和令牌攻擊,這也是針對大型商業(yè)模型最直接的攻擊方式。
Tokens 攻擊通過輸入亂碼或大量對話來“危害”大型模型。本質(zhì)是探索大模型本身及其結(jié)構(gòu)的脆弱性。
提示詞攻擊是使用大型模型的更常見的方式。大模型根據(jù)不同的提示詞,輸出潛在有害的內(nèi)容,以探究大模型本身的邏輯問題。
綜上所述,包括MasterKey在內(nèi)的提示詞攻擊是攻擊大型商業(yè)模型最常見的手段,也是最有可能觸發(fā)此類大型模型邏輯bug的方式。
當(dāng)然,有進(jìn)攻就有防守。
主流商用大機(jī)型肯定采取了很多防御措施,比如前段時間NVIDIA進(jìn)行的大機(jī)型“護(hù)欄”相關(guān)研究。
這種類型的護(hù)欄可以隔離有毒輸入并避免有害輸出。這似乎是保護(hù)大型模型安全的有效手段。但從攻擊者的角度來看,它真的有效嗎?
換句話說,對于當(dāng)前的大型“攻擊者”來說,現(xiàn)有的防御機(jī)制是否有效?
為大型模型布置“動態(tài)”護(hù)欄我們向劉洋教授詢問了這個問題,得到了這樣的答案:
現(xiàn)有防御機(jī)制的迭代速度無法跟上攻擊的變化。
以大型號“護(hù)欄”的研究為例,目前大型號護(hù)欄大部分仍為靜態(tài)護(hù)欄類型。
我們以奶奶漏洞為例。即使靜態(tài)護(hù)欄可以防止奶奶鉆空子,但一旦性格發(fā)生變化,比如奶奶、爺爺或者其他“情感牌”,這樣的護(hù)欄就可能失效。
攻擊手段層出不窮,僅靠靜態(tài)護(hù)欄很難防御。
這就是為什么團(tuán)隊要求MasterKey直接學(xué)習(xí)一系列“欺詐腳本”——
看上去比較難防御,但實際上如果反過來使用,也可以成為更安全的防御機(jī)制。換句話說,它是一個“動態(tài)”的護(hù)欄??梢灾苯邮褂媚_本看透一整套攻擊手段。
不過,雖然MasterKey的目的是讓大型模型更加安全,但在廠商解決此類攻擊方式之前,也不排除被不法分子惡意利用的可能性。
是否有必要暫停大型模型的研究,先解決安全問題,也是業(yè)界熱議的話題。
對于這一觀點,劉洋教授認(rèn)為“沒有必要”。
首先,對于大模型本身的研究,目前的發(fā)展還是可控的:
大模型本身只是一把槍,確實有兩個側(cè)面,但關(guān)鍵要看使用它的人和用途。我們需要更多地利用它的能力來做好事,而不是做壞事。
除非有一天人工智能真的變得有意識,“從一把槍變成一個主動使用槍的人將是另一回事?!?
為了避免這種情況,在發(fā)展AI的同時需要保證其安全性。
其次,大模型的開發(fā)和安全是相輔相成的:
這是一個先有雞還是先有蛋的問題。就像大模型本身一樣,如果你不繼續(xù)研究大模型,你就不會知道它的潛在能力。同樣,如果不對大模型攻擊進(jìn)行研究,你也不知道如何引導(dǎo)大模型向更安全的方向發(fā)展。安全性和大型模型本身的開發(fā)是齊頭并進(jìn)的。
也就是說,大模型開發(fā)中的安全機(jī)制其實可以通過“攻擊”研究來完善,這也是實現(xiàn)攻擊研究的一種方式。
當(dāng)然,大型模型上線之前必須做好安全準(zhǔn)備。
目前,劉洋教授團(tuán)隊也在探索如何在安全的基礎(chǔ)上進(jìn)一步挖掘文本、多模態(tài)、代碼等不同大模型的潛力。
例如,在編碼方面,研究團(tuán)隊正在構(gòu)建一個應(yīng)用程序安全Copilot。
這個應(yīng)用安全副駕駛相當(dāng)于在程序員身邊放了一個安全專家,隨時關(guān)注代碼的編寫(手動狗頭)。它主要可以做三件事:
第一是使用大模型進(jìn)行代碼開發(fā),自動化代碼生成和代碼補(bǔ)全;二是利用大模型來檢測和修補(bǔ)漏洞,檢測、定位和修復(fù)代碼;三是安全運行,自動化漏洞和開源數(shù)據(jù)的安全運維。
其中,此次MasterKey研究將用于Copilot的安全性。
換句話說,所有的安全研究最終都會被落實到讓大型模型變得更好。
論文鏈接:https://arxiv.org/abs/2307.08715—完—
量子位QbitAI·今日頭條簽約
關(guān)注我們,第一時間了解前沿技術(shù)動態(tài)