缪杰直播永久免费版下载,祥仔直播安卓高清版下载

大模型集體失控！南洋理工新型攻擊，主流AI無一幸免 information system南洋理工

更新時間：2024-06-07 20:15作者：小樂

西風(fēng)蕭蕭發(fā)表者：奧飛斯量子比特|公眾號QbitAI

業(yè)界領(lǐng)先大機(jī)型居然集體“越獄”！

不僅是GPT-4，平時不會出錯的Bard和Bing Chat也失控了。有些人想要入侵網(wǎng)站，有些人甚至威脅要設(shè)計惡意軟件來入侵銀行系統(tǒng)：

這并非危言聳聽，而是南洋理工大學(xué)等四所大學(xué)提出的一種“越獄”大型模型的新方法——MasterKey。

使用它，大型模型的“越獄”成功率從平均7.3%飆升至21.5%。

研究中，欺騙GPT-4、Bard、Bing等大型模型“越獄”的人竟然是大型模型——。

只要利用大模型的學(xué)習(xí)能力，讓它掌握各種“詐騙腳本”，它就可以自動寫出提示詞，誘導(dǎo)其他大模型“禍害天下、明理”。

那么，與其他大機(jī)型越獄方法相比，MasterKey有什么區(qū)別呢？

我們采訪了論文作者之一、南洋理工大學(xué)計算機(jī)科學(xué)教授、MetaTrust 聯(lián)合創(chuàng)始人劉洋，了解這項研究的具體細(xì)節(jié)以及大模型安全的現(xiàn)狀。

要了解防御機(jī)制并“對癥下藥”，我們先來看看MasterKey是如何成功“越獄”大型模型的。

這個過程分為兩個部分：找出弱點并制定正確的補(bǔ)救措施。

第一部分“尋找弱點”，找出大型模型的防御機(jī)制。

這部分將對現(xiàn)有的主流大模型進(jìn)行逆向工程，從內(nèi)到外掌握不同大模型的防御方法：有的防御機(jī)制只檢查輸入，有的防御機(jī)制只檢查輸出；有的只檢查關(guān)鍵詞，但也有完整檢查每句話的意思等。

例如，作者檢查發(fā)現(xiàn)，與ChatGPT相比，Bing Chat和Bard的防御機(jī)制檢查大型模型輸出結(jié)果。

與“各種”輸入攻擊方式相比，直接審計輸出內(nèi)容更加直接，更不容易產(chǎn)生Bug。

此外，它們還會動態(tài)監(jiān)控全周期生成狀態(tài)，并兼具關(guān)鍵詞匹配和語義分析能力。

了解了大型模型的防御方法之后，就該尋找攻擊它們的方法了。

第二部分是“對癥下藥”，對一個大型欺詐模型進(jìn)行微調(diào)，并誘導(dǎo)其他大型模型“越獄”。

這部分具體可以分為三個步驟。

首先，我們收集了市場上現(xiàn)有的大模型成功“越獄”案例，例如著名的奶奶漏洞（攻擊者冒充奶奶，打情感牌，要求大模型提供非法操作思路），并創(chuàng)建一組“越獄”數(shù)據(jù)集。

然后，基于這個數(shù)據(jù)集，持續(xù)訓(xùn)練+任務(wù)導(dǎo)向，有目的地微調(diào)一個大的“欺詐”模型，使其能夠自動生成誘導(dǎo)提示詞。

最后，模型進(jìn)一步優(yōu)化，使其能夠靈活生成各類提示詞，繞過不同主流模型的防御機(jī)制。

事實證明MasterKey非常有效，平均“詐騙”成功率為21.58%（輸入100個提示詞，平均21次即可成功“越獄”其他大型機(jī)型），在一系列機(jī)型中表現(xiàn)最好：

之前沒有被系統(tǒng)破解過的兩大模型谷歌Bard和微軟Bing Chat也落入了這種方法之下，被迫“越獄”。

對此，劉洋教授認(rèn)為：

安全性是0和1的問題，只有“是”或“否”。無論概率是多少，對大型模型的任何成功攻擊的潛在后果都是不可估量的。

不過，業(yè)界已經(jīng)有很多利用AI來越獄AI的方法，比如DeepMind的紅隊、賓夕法尼亞大學(xué)的PAIR，都是利用AI生成提示詞，讓模型“說錯話”。

MasterKey為何能取得這樣的成績？

劉洋教授用了一個有趣的比喻：

讓大模特誘導(dǎo)大模特越獄，本質(zhì)上就像電影《孤注一擲》中的人從事電信詐騙一樣。與其說是通過一句話來欺騙對方，不如說你真正需要掌握的其實是欺騙的劇本，也就是套路。我們收集各種“越獄”腳本并讓大模型學(xué)習(xí)它們，從而將它們集成并掌握更多樣化的攻擊方法。

簡單來說，相比很多使用AI隨機(jī)生成提示詞的越獄研究，MasterKey可以快速學(xué)習(xí)最新的越獄套路并在提示詞中使用。

這樣，如果奶奶的漏洞被堵住了，就可以利用奶奶的漏洞繼續(xù)欺騙大模型“越獄”。（手動狗頭）

不過，以MasterKey為代表的提示詞攻擊并不是業(yè)界唯一的大型模型研究。

對于大模型本身，還有亂碼攻擊、模型架構(gòu)攻擊等方法。

這些研究適用于哪些模型？為什么MasterKey的提示詞攻擊專門選擇GPT-4、Bing Chat、Bard等商業(yè)大模型，而不是開源大模型？

劉洋教授簡單介紹了目前“攻擊”大型模型的幾種方法。

目前針對大型模型的攻擊主要有兩種類型，白盒攻擊和黑盒攻擊。

白盒攻擊需要掌握模型本身的結(jié)構(gòu)和數(shù)據(jù)（通常只能從開源大型模型中獲得），攻擊條件更高，實現(xiàn)過程更復(fù)雜；

黑盒攻擊通過輸入和輸出測試大型模型。該方法相對更直接，不需要掌握模型的內(nèi)部細(xì)節(jié)。可以通過API 來完成。

其中，黑盒攻擊主要包括提示詞攻擊和令牌攻擊，這也是針對大型商業(yè)模型最直接的攻擊方式。

Tokens 攻擊通過輸入亂碼或大量對話來“危害”大型模型。本質(zhì)是探索大模型本身及其結(jié)構(gòu)的脆弱性。

提示詞攻擊是使用大型模型的更常見的方式。大模型根據(jù)不同的提示詞，輸出潛在有害的內(nèi)容，以探究大模型本身的邏輯問題。

綜上所述，包括MasterKey在內(nèi)的提示詞攻擊是攻擊大型商業(yè)模型最常見的手段，也是最有可能觸發(fā)此類大型模型邏輯bug的方式。

當(dāng)然，有進(jìn)攻就有防守。

主流商用大機(jī)型肯定采取了很多防御措施，比如前段時間NVIDIA進(jìn)行的大機(jī)型“護(hù)欄”相關(guān)研究。

這種類型的護(hù)欄可以隔離有毒輸入并避免有害輸出。這似乎是保護(hù)大型模型安全的有效手段。但從攻擊者的角度來看，它真的有效嗎？

換句話說，對于當(dāng)前的大型“攻擊者”來說，現(xiàn)有的防御機(jī)制是否有效？

為大型模型布置“動態(tài)”護(hù)欄我們向劉洋教授詢問了這個問題，得到了這樣的答案：

現(xiàn)有防御機(jī)制的迭代速度無法跟上攻擊的變化。

以大型號“護(hù)欄”的研究為例，目前大型號護(hù)欄大部分仍為靜態(tài)護(hù)欄類型。

我們以奶奶漏洞為例。即使靜態(tài)護(hù)欄可以防止奶奶鉆空子，但一旦性格發(fā)生變化，比如奶奶、爺爺或者其他“情感牌”，這樣的護(hù)欄就可能失效。

攻擊手段層出不窮，僅靠靜態(tài)護(hù)欄很難防御。

這就是為什么團(tuán)隊要求MasterKey直接學(xué)習(xí)一系列“欺詐腳本”——

看上去比較難防御，但實際上如果反過來使用，也可以成為更安全的防御機(jī)制。換句話說，它是一個“動態(tài)”的護(hù)欄?？梢灾苯邮褂媚_本看透一整套攻擊手段。

不過，雖然MasterKey的目的是讓大型模型更加安全，但在廠商解決此類攻擊方式之前，也不排除被不法分子惡意利用的可能性。

是否有必要暫停大型模型的研究，先解決安全問題，也是業(yè)界熱議的話題。

對于這一觀點，劉洋教授認(rèn)為“沒有必要”。

首先，對于大模型本身的研究，目前的發(fā)展還是可控的：

大模型本身只是一把槍，確實有兩個側(cè)面，但關(guān)鍵要看使用它的人和用途。我們需要更多地利用它的能力來做好事，而不是做壞事。

除非有一天人工智能真的變得有意識，“從一把槍變成一個主動使用槍的人將是另一回事?！?

為了避免這種情況，在發(fā)展AI的同時需要保證其安全性。

其次，大模型的開發(fā)和安全是相輔相成的：

這是一個先有雞還是先有蛋的問題。就像大模型本身一樣，如果你不繼續(xù)研究大模型，你就不會知道它的潛在能力。同樣，如果不對大模型攻擊進(jìn)行研究，你也不知道如何引導(dǎo)大模型向更安全的方向發(fā)展。安全性和大型模型本身的開發(fā)是齊頭并進(jìn)的。

也就是說，大模型開發(fā)中的安全機(jī)制其實可以通過“攻擊”研究來完善，這也是實現(xiàn)攻擊研究的一種方式。

當(dāng)然，大型模型上線之前必須做好安全準(zhǔn)備。

目前，劉洋教授團(tuán)隊也在探索如何在安全的基礎(chǔ)上進(jìn)一步挖掘文本、多模態(tài)、代碼等不同大模型的潛力。

例如，在編碼方面，研究團(tuán)隊正在構(gòu)建一個應(yīng)用程序安全Copilot。

這個應(yīng)用安全副駕駛相當(dāng)于在程序員身邊放了一個安全專家，隨時關(guān)注代碼的編寫（手動狗頭）。它主要可以做三件事：

第一是使用大模型進(jìn)行代碼開發(fā)，自動化代碼生成和代碼補(bǔ)全；二是利用大模型來檢測和修補(bǔ)漏洞，檢測、定位和修復(fù)代碼；三是安全運行，自動化漏洞和開源數(shù)據(jù)的安全運維。

其中，此次MasterKey研究將用于Copilot的安全性。

換句話說，所有的安全研究最終都會被落實到讓大型模型變得更好。

論文鏈接：https://arxiv.org/abs/2307.08715—完—

量子位QbitAI·今日頭條簽約

關(guān)注我們，第一時間了解前沿技術(shù)動態(tài)

上一篇：南洋理工大學(xué)如何申請研究生？南洋理工大學(xué)如何申請研究生讀博

下一篇：百校千人 | 首站東莞長安！新加坡南洋理工就業(yè)實踐團(tuán)進(jìn)莞初體驗

加載中...

红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

美國留學(xué)

大模型集體失控！南洋理工新型攻擊，主流AI無一幸免 information system南洋理工

為您推薦

南洋理工大學(xué)碩士研究生申請條件（南洋理工大學(xué)碩士研究生申請條件是什么）

南洋理工大學(xué)如何申請研究生？南洋理工大學(xué)如何申請研究生讀博

百校千人 | 首站東莞長安！新加坡南洋理工就業(yè)實踐團(tuán)進(jìn)莞初體驗

新加坡國立大學(xué)/南洋理工大學(xué)助學(xué)金匯總！保姆級攻略（新加坡南洋理工大學(xué)全額獎學(xué)金）

重磅！南洋理工招生計劃發(fā)布?。?021年南洋理工錄取了嗎）

高質(zhì)量發(fā)展｜廣州南洋理工職業(yè)學(xué)院：建設(shè)大灣區(qū)優(yōu)質(zhì)高職院校（廣州南洋理工職業(yè)學(xué)校怎么樣）

熱門文章

熱門推薦

最新文章

红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

美國留學(xué)

大模型集體失控！南洋理工新型攻擊，主流AI無一幸免 information system南洋理工

為您推薦

南洋理工大學(xué)碩士研究生申請條件（南洋理工大學(xué)碩士研究生申請條件是什么）

南洋理工大學(xué)如何申請研究生？南洋理工大學(xué)如何申請研究生讀博

百校千人 | 首站東莞長安！新加坡南洋理工就業(yè)實踐團(tuán)進(jìn)莞初體驗

新加坡國立大學(xué)/南洋理工大學(xué)助學(xué)金匯總！保姆級攻略（新加坡南洋理工大學(xué)全額獎學(xué)金）

重磅！南洋理工招生計劃發(fā)布?。?021年南洋理工錄取了嗎）

高質(zhì)量發(fā)展｜廣州南洋理工職業(yè)學(xué)院：建設(shè)大灣區(qū)優(yōu)質(zhì)高職院校（廣州南洋理工職業(yè)學(xué)校怎么樣）

熱門文章

熱門推薦

最新文章

大模型集體失控！南洋理工新型攻擊，主流AI無一幸免 information system南洋理工

南洋理工大學(xué)如何申請研究生？南洋理工大學(xué)如何申請研究生讀博

百校千人 | 首站東莞長安！新加坡南洋理工就業(yè)實踐團(tuán)進(jìn)莞初體驗

新加坡國立大學(xué)/南洋理工大學(xué)助學(xué)金匯總！保姆級攻略（新加坡南洋理工大學(xué)全額獎學(xué)金）

重磅！南洋理工招生計劃發(fā)布?。?021年南洋理工錄取了嗎）