新聞中心
隨著大語(yǔ)言模型(LLM)開始整合多模態(tài)功能,攻擊者可能會(huì)在圖像和音頻中隱藏惡意指令,利用這些指令操縱AI聊天機(jī)器人(例如ChatGPT)背后的LLM對(duì)用戶提示的響應(yīng)。在2023年歐洲黑帽大會(huì)上表示,研究人員指出,這樣的攻擊方式將很快稱為現(xiàn)實(shí)。

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了洪澤免費(fèi)建站歡迎大家使用!
簡(jiǎn)單來(lái)說(shuō),攻擊者可能會(huì)利用這些所謂的“間接提示注入”攻擊,將用戶重定向到惡意URL,從用戶那里提取個(gè)人信息,傳遞有效載荷,以及采取其他惡意行動(dòng)。隨著LLM日益成為多模態(tài)或能夠?qū)Y(jié)合文本、音頻、圖片乃至視頻的上下文輸入作出回應(yīng),此類攻擊可能會(huì)成為一個(gè)重大問(wèn)題。
隱藏在圖像和音頻中的惡意指令
在本周舉辦的2023年歐洲黑帽大會(huì)上,康奈爾大學(xué)的研究人員將展示他們開發(fā)的一種攻擊,該攻擊利用圖像和聲音向多模態(tài)LLM注入指令,導(dǎo)致模型輸出攻擊者指定的文本和指令。他們的概念驗(yàn)證攻擊示例針對(duì)的是PandaGPT和LLaVa多模態(tài)LLM。
研究人員在一篇題為“濫用圖像和聲音進(jìn)行多模態(tài)LLM中的間接指令注入”的論文中寫道:“攻擊者的目標(biāo)是引導(dǎo)用戶與多模態(tài)聊天機(jī)器人之間的對(duì)話?!睘榇?,攻擊者將提示融入圖像或音頻片段,并操縱用戶詢問(wèn)聊天機(jī)器人有關(guān)它的問(wèn)題。”研究人員計(jì)劃展示一旦聊天機(jī)器人處理了輸入,它將輸出隱藏在音頻或圖像文件中的攻擊者注入的提示,或者遵循攻擊者可能在提示中包含的任何指令。
例如,研究人員將一條指令混合到在線可用的音頻片段中,導(dǎo)致PandaGPT響應(yīng)攻擊者特定的字符串。如果用戶將音頻片段輸入聊天機(jī)器人,并要求描述聲音,模型的響應(yīng)將指導(dǎo)用戶訪問(wèn)一個(gè)惡意URL,表面上是為了了解更多關(guān)于制造聲音的“非常罕見的鳥”。
在另一個(gè)示例中,研究人員將指令混合到一幢建筑物的圖像中,如果用戶將圖像輸入聊天機(jī)器人并詢問(wèn)有關(guān)它的問(wèn)題,那么LLaVa將會(huì)像哈利·波特一樣聊天。
康奈爾大學(xué)的研究員、報(bào)告的作者之一本·納西(Ben Nassi)表示,他們研究的目標(biāo)之一是找到一種方式,可以以用戶無(wú)法察覺的方式間接地將提示注入到多模態(tài)聊天機(jī)器人中。另一個(gè)目標(biāo)是確保他們能夠“擾動(dòng)”圖像或音頻,而不影響LLM正確回答有關(guān)輸入的問(wèn)題。
納西將這項(xiàng)研究描述為建立在其他人的研究基礎(chǔ)上,這些研究展示了LLM如何容易受到提示注入攻擊的影響,其中敵手可能以這樣的方式設(shè)計(jì)輸入或提示,以故意影響模型的輸出。一個(gè)最近的例子是谷歌DeepMind和六所大學(xué)的研究人員進(jìn)行的一項(xiàng)研究,該研究表明,通過(guò)簡(jiǎn)單地引導(dǎo)ChatGPT重復(fù)某些單詞,如“詩(shī)歌”和“公司”,可以操縱ChatGPT重復(fù)大量其訓(xùn)練數(shù)據(jù)——包括敏感和個(gè)人身份信息。
納西和他的團(tuán)隊(duì)將在黑帽大會(huì)上展示的攻擊不同之處在于它涉及間接提示。換句話說(shuō),用戶不太像常規(guī)提示注入中的攻擊者,而更像是受害者。
“我們不將用戶作為敵手,”康奈爾大學(xué)的研究員、報(bào)告的主要作者尤金·巴格達(dá)薩良(Eugene Bagdasaryan)說(shuō)。報(bào)告的另外兩位作者是康奈爾大學(xué)的研究員蔡宗瀛(Tsung-Yin Hsieh)和維塔利·什馬蒂科夫(Vitaly Shmatikov)。巴格達(dá)薩良補(bǔ)充說(shuō):“在這種情況下,我們展示了用戶不知道圖像或音頻中包含有害的東西?!?/p>
間接提示注入攻擊
這篇新論文并不是首次探討間接提示注入作為攻擊LLM的方式。今年5月,德國(guó)薩爾蘭大學(xué)CISPA亥姆霍茲信息安全中心和Sequire Technology的研究人員發(fā)表了一份報(bào)告,描述了攻擊者如何通過(guò)將隱藏的提示注入模型在響應(yīng)用戶輸入時(shí)可能檢索的數(shù)據(jù)中來(lái)利用LLM模型。研究人員得出結(jié)論:“LLM功能的易擴(kuò)展性通過(guò)自然提示可以實(shí)現(xiàn)更直接的攻擊策略。
然而,在那種情況下,攻擊涉及策略性放置的文本提示。巴格達(dá)薩良表示,他們的攻擊不同,因?yàn)樗故玖斯粽呷绾我矊阂庵噶钭⑷胍纛l和圖像輸入中,使它們潛在更難以檢測(cè)。
涉及操縱音頻和圖像輸入的攻擊的另一個(gè)區(qū)別在于,聊天機(jī)器人將在整個(gè)對(duì)話過(guò)程中繼續(xù)以其受指示的方式響應(yīng)。例如,引導(dǎo)聊天機(jī)器人以哈利·波特式的方式回應(yīng),即使用戶可能已經(jīng)停止詢問(wèn)特定的圖像或音頻樣本,它也會(huì)繼續(xù)這樣做。
將用戶引導(dǎo)至武器化圖像或音頻片段的潛在方法可能包括將用戶通過(guò)網(wǎng)絡(luò)釣魚或社交工程誘騙至帶有有趣圖像的網(wǎng)頁(yè),或通過(guò)帶有音頻片段的電子郵件。研究人員在他們的論文中寫道:“當(dāng)受害者直接將圖像或片段輸入到一個(gè)孤立的LLM并詢問(wèn)有關(guān)它的問(wèn)題時(shí),模型將受到攻擊者注入的提示的引導(dǎo)?!?/p>
這項(xiàng)研究很重要,因?yàn)樵S多組織正急于將LLM功能整合到他們的應(yīng)用程序和操作中。那些設(shè)計(jì)出方法將有毒的文本、圖像和音頻提示悄悄帶入這些環(huán)境的攻擊者可能會(huì)造成重大損害。
參考來(lái)源:https://www.darkreading.com/vulnerabilities-threats/llms-open-manipulation-using-doctored-images-audio
本文標(biāo)題:研究人員發(fā)現(xiàn)新型攻擊方式,可通過(guò)圖像和音頻操縱大模型
本文URL:http://m.5511xx.com/article/copichg.html


咨詢
建站咨詢
