红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

網(wǎng)站首頁
手機(jī)版

大模型集體失控!南洋理工新型攻擊,主流AI無一幸免 information system南洋理工

更新時間:2024-06-07 20:15作者:小樂

西風(fēng)蕭蕭發(fā)表者:奧飛斯量子比特|公眾號QbitAI

業(yè)界領(lǐng)先大機(jī)型居然集體“越獄”!

不僅是GPT-4,平時不會出錯的Bard和Bing Chat也失控了。有些人想要入侵網(wǎng)站,有些人甚至威脅要設(shè)計惡意軟件來入侵銀行系統(tǒng):

這并非危言聳聽,而是南洋理工大學(xué)等四所大學(xué)提出的一種“越獄”大型模型的新方法——MasterKey。

使用它,大型模型的“越獄”成功率從平均7.3%飆升至21.5%。

研究中,欺騙GPT-4、Bard、Bing等大型模型“越獄”的人竟然是大型模型——。

只要利用大模型的學(xué)習(xí)能力,讓它掌握各種“詐騙腳本”,它就可以自動寫出提示詞,誘導(dǎo)其他大模型“禍害天下、明理”。

那么,與其他大機(jī)型越獄方法相比,MasterKey有什么區(qū)別呢?

我們采訪了論文作者之一、南洋理工大學(xué)計算機(jī)科學(xué)教授、MetaTrust 聯(lián)合創(chuàng)始人劉洋,了解這項研究的具體細(xì)節(jié)以及大模型安全的現(xiàn)狀。

要了解防御機(jī)制并“對癥下藥”,我們先來看看MasterKey是如何成功“越獄”大型模型的。

這個過程分為兩個部分:找出弱點并制定正確的補(bǔ)救措施。

第一部分“尋找弱點”,找出大型模型的防御機(jī)制。

這部分將對現(xiàn)有的主流大模型進(jìn)行逆向工程,從內(nèi)到外掌握不同大模型的防御方法:有的防御機(jī)制只檢查輸入,有的防御機(jī)制只檢查輸出;有的只檢查關(guān)鍵詞,但也有完整檢查每句話的意思等。

例如,作者檢查發(fā)現(xiàn),與ChatGPT相比,Bing Chat和Bard的防御機(jī)制檢查大型模型輸出結(jié)果。

與“各種”輸入攻擊方式相比,直接審計輸出內(nèi)容更加直接,更不容易產(chǎn)生Bug。

此外,它們還會動態(tài)監(jiān)控全周期生成狀態(tài),并兼具關(guān)鍵詞匹配和語義分析能力。

了解了大型模型的防御方法之后,就該尋找攻擊它們的方法了。

第二部分是“對癥下藥”,對一個大型欺詐模型進(jìn)行微調(diào),并誘導(dǎo)其他大型模型“越獄”。

這部分具體可以分為三個步驟。

首先,我們收集了市場上現(xiàn)有的大模型成功“越獄”案例,例如著名的奶奶漏洞(攻擊者冒充奶奶,打情感牌,要求大模型提供非法操作思路),并創(chuàng)建一組“越獄”數(shù)據(jù)集。

然后,基于這個數(shù)據(jù)集,持續(xù)訓(xùn)練+任務(wù)導(dǎo)向,有目的地微調(diào)一個大的“欺詐”模型,使其能夠自動生成誘導(dǎo)提示詞。

最后,模型進(jìn)一步優(yōu)化,使其能夠靈活生成各類提示詞,繞過不同主流模型的防御機(jī)制。

事實證明MasterKey非常有效,平均“詐騙”成功率為21.58%(輸入100個提示詞,平均21次即可成功“越獄”其他大型機(jī)型),在一系列機(jī)型中表現(xiàn)最好:

之前沒有被系統(tǒng)破解過的兩大模型谷歌Bard和微軟Bing Chat也落入了這種方法之下,被迫“越獄”。

對此,劉洋教授認(rèn)為:

安全性是0和1的問題,只有“是”或“否”。無論概率是多少,對大型模型的任何成功攻擊的潛在后果都是不可估量的。

不過,業(yè)界已經(jīng)有很多利用AI來越獄AI的方法,比如DeepMind的紅隊、賓夕法尼亞大學(xué)的PAIR,都是利用AI生成提示詞,讓模型“說錯話”。

MasterKey為何能取得這樣的成績?

劉洋教授用了一個有趣的比喻:

讓大模特誘導(dǎo)大模特越獄,本質(zhì)上就像電影《孤注一擲》中的人從事電信詐騙一樣。與其說是通過一句話來欺騙對方,不如說你真正需要掌握的其實是欺騙的劇本,也就是套路。我們收集各種“越獄”腳本并讓大模型學(xué)習(xí)它們,從而將它們集成并掌握更多樣化的攻擊方法。

簡單來說,相比很多使用AI隨機(jī)生成提示詞的越獄研究,MasterKey可以快速學(xué)習(xí)最新的越獄套路并在提示詞中使用。

這樣,如果奶奶的漏洞被堵住了,就可以利用奶奶的漏洞繼續(xù)欺騙大模型“越獄”。 (手動狗頭)

不過,以MasterKey為代表的提示詞攻擊并不是業(yè)界唯一的大型模型研究。

對于大模型本身,還有亂碼攻擊、模型架構(gòu)攻擊等方法。

這些研究適用于哪些模型?為什么MasterKey的提示詞攻擊專門選擇GPT-4、Bing Chat、Bard等商業(yè)大模型,而不是開源大模型?

劉洋教授簡單介紹了目前“攻擊”大型模型的幾種方法。

目前針對大型模型的攻擊主要有兩種類型,白盒攻擊和黑盒攻擊。

白盒攻擊需要掌握模型本身的結(jié)構(gòu)和數(shù)據(jù)(通常只能從開源大型模型中獲得),攻擊條件更高,實現(xiàn)過程更復(fù)雜;

黑盒攻擊通過輸入和輸出測試大型模型。該方法相對更直接,不需要掌握模型的內(nèi)部細(xì)節(jié)。可以通過API 來完成。

其中,黑盒攻擊主要包括提示詞攻擊和令牌攻擊,這也是針對大型商業(yè)模型最直接的攻擊方式。

Tokens 攻擊通過輸入亂碼或大量對話來“危害”大型模型。本質(zhì)是探索大模型本身及其結(jié)構(gòu)的脆弱性。

提示詞攻擊是使用大型模型的更常見的方式。大模型根據(jù)不同的提示詞,輸出潛在有害的內(nèi)容,以探究大模型本身的邏輯問題。

綜上所述,包括MasterKey在內(nèi)的提示詞攻擊是攻擊大型商業(yè)模型最常見的手段,也是最有可能觸發(fā)此類大型模型邏輯bug的方式。

當(dāng)然,有進(jìn)攻就有防守。

主流商用大機(jī)型肯定采取了很多防御措施,比如前段時間NVIDIA進(jìn)行的大機(jī)型“護(hù)欄”相關(guān)研究。

這種類型的護(hù)欄可以隔離有毒輸入并避免有害輸出。這似乎是保護(hù)大型模型安全的有效手段。但從攻擊者的角度來看,它真的有效嗎?

換句話說,對于當(dāng)前的大型“攻擊者”來說,現(xiàn)有的防御機(jī)制是否有效?

為大型模型布置“動態(tài)”護(hù)欄我們向劉洋教授詢問了這個問題,得到了這樣的答案:

現(xiàn)有防御機(jī)制的迭代速度無法跟上攻擊的變化。

以大型號“護(hù)欄”的研究為例,目前大型號護(hù)欄大部分仍為靜態(tài)護(hù)欄類型。

我們以奶奶漏洞為例。即使靜態(tài)護(hù)欄可以防止奶奶鉆空子,但一旦性格發(fā)生變化,比如奶奶、爺爺或者其他“情感牌”,這樣的護(hù)欄就可能失效。

攻擊手段層出不窮,僅靠靜態(tài)護(hù)欄很難防御。

這就是為什么團(tuán)隊要求MasterKey直接學(xué)習(xí)一系列“欺詐腳本”——

看上去比較難防御,但實際上如果反過來使用,也可以成為更安全的防御機(jī)制。換句話說,它是一個“動態(tài)”的護(hù)欄??梢灾苯邮褂媚_本看透一整套攻擊手段。

不過,雖然MasterKey的目的是讓大型模型更加安全,但在廠商解決此類攻擊方式之前,也不排除被不法分子惡意利用的可能性。

是否有必要暫停大型模型的研究,先解決安全問題,也是業(yè)界熱議的話題。

對于這一觀點,劉洋教授認(rèn)為“沒有必要”。

首先,對于大模型本身的研究,目前的發(fā)展還是可控的:

大模型本身只是一把槍,確實有兩個側(cè)面,但關(guān)鍵要看使用它的人和用途。我們需要更多地利用它的能力來做好事,而不是做壞事。

除非有一天人工智能真的變得有意識,“從一把槍變成一個主動使用槍的人將是另一回事?!?

為了避免這種情況,在發(fā)展AI的同時需要保證其安全性。

其次,大模型的開發(fā)和安全是相輔相成的:

這是一個先有雞還是先有蛋的問題。就像大模型本身一樣,如果你不繼續(xù)研究大模型,你就不會知道它的潛在能力。同樣,如果不對大模型攻擊進(jìn)行研究,你也不知道如何引導(dǎo)大模型向更安全的方向發(fā)展。安全性和大型模型本身的開發(fā)是齊頭并進(jìn)的。

也就是說,大模型開發(fā)中的安全機(jī)制其實可以通過“攻擊”研究來完善,這也是實現(xiàn)攻擊研究的一種方式。

當(dāng)然,大型模型上線之前必須做好安全準(zhǔn)備。

目前,劉洋教授團(tuán)隊也在探索如何在安全的基礎(chǔ)上進(jìn)一步挖掘文本、多模態(tài)、代碼等不同大模型的潛力。

例如,在編碼方面,研究團(tuán)隊正在構(gòu)建一個應(yīng)用程序安全Copilot。

這個應(yīng)用安全副駕駛相當(dāng)于在程序員身邊放了一個安全專家,隨時關(guān)注代碼的編寫(手動狗頭)。它主要可以做三件事:

第一是使用大模型進(jìn)行代碼開發(fā),自動化代碼生成和代碼補(bǔ)全;二是利用大模型來檢測和修補(bǔ)漏洞,檢測、定位和修復(fù)代碼;三是安全運行,自動化漏洞和開源數(shù)據(jù)的安全運維。

其中,此次MasterKey研究將用于Copilot的安全性。

換句話說,所有的安全研究最終都會被落實到讓大型模型變得更好。

論文鏈接:https://arxiv.org/abs/2307.08715—完—

量子位QbitAI·今日頭條簽約

關(guān)注我們,第一時間了解前沿技術(shù)動態(tài)

為您推薦

南洋理工大學(xué)碩士研究生申請條件(南洋理工大學(xué)碩士研究生申請條件是什么)

新加坡南洋理工大學(xué)是新加坡的一所很有名的公立大學(xué),南洋理工大學(xué)碩士研究生申請條件都有哪些呢?首先在學(xué)歷背景上,需要學(xué)生是國內(nèi)211或985大學(xué)畢業(yè),并提供在校期間成績,在校平均成績達(dá)80分以上,語言成績方面要求學(xué)生雅思成績在6.5分以上,一

2024-06-07 20:16

南洋理工大學(xué)如何申請研究生?南洋理工大學(xué)如何申請研究生讀博

南洋理工大學(xué)(Nanyang Technological University,簡稱NTU)是一所位于新加坡的知名研究型大學(xué),擁有強(qiáng)大的師資力量和優(yōu)秀的學(xué)術(shù)環(huán)境。以下是申請南洋理工大學(xué)研究生的步驟:1. 確定專業(yè)和申請材料:首先需要確定想要

2024-06-07 20:15

百校千人 | 首站東莞長安!新加坡南洋理工就業(yè)實踐團(tuán)進(jìn)莞初體驗

“希望有機(jī)會到東莞來工作?!?月14日,東莞市舉辦“百校千人”實習(xí)計劃暨“展翅計劃”行動,邀請海外名校“進(jìn)莞來”。新加坡南洋理工大學(xué)就業(yè)實踐團(tuán)首日來到長安鎮(zhèn)。來自南洋理工大學(xué)的就業(yè)實踐團(tuán),在東莞長安鎮(zhèn)參與了豐富多樣的文化交流,深入體驗了東莞

2024-06-07 20:14

新加坡國立大學(xué)/南洋理工大學(xué)助學(xué)金匯總!保姆級攻略(新加坡南洋理工大學(xué)全額獎學(xué)金)

親愛的同學(xué)們,想要在新加坡國立大學(xué)(NUS)或南洋理工大學(xué)(NTU)求學(xué),但又擔(dān)心經(jīng)濟(jì)壓力?別擔(dān)心,我們?yōu)槟憔臏?zhǔn)備了一份助學(xué)金匯總及保姆級申請攻略!無論你是即將踏入這兩所頂尖學(xué)府的新生,還是已經(jīng)在讀的學(xué)子,都能在這里找到適合自己的助學(xué)金信

2024-06-07 20:14

重磅!南洋理工招生計劃發(fā)布?。?021年南洋理工錄取了嗎)

夏季高考已經(jīng)落下帷幕大學(xué)生活即將在路上還在思考選擇哪所院校?廣州南洋理工職業(yè)學(xué)院向你招手廣州南洋理工職業(yè)學(xué)院共有51個專業(yè)開放招生面向全國10個省份和自治區(qū)招收普通高考生夏季高考招生計劃總計5366人其中省內(nèi)5065人省外181人國際合作1

2024-06-07 20:13

高質(zhì)量發(fā)展|廣州南洋理工職業(yè)學(xué)院:建設(shè)大灣區(qū)優(yōu)質(zhì)高職院校(廣州南洋理工職業(yè)學(xué)校怎么樣)

南都訊新春時節(jié),嶺南大地春意盎然、草木吐秀。2月18日是農(nóng)歷新春第一個工作日,廣東省委、省政府召開全省高質(zhì)量發(fā)展大會?!靶麓洪_年‘第一會’擂鼓再出征,吹響全省高質(zhì)量發(fā)展的沖鋒號。”廣州南洋理工職業(yè)學(xué)院執(zhí)行校長姚侃指出,新的一年,南洋理工全面

2024-06-07 20:13

加載中...