狼友av免费一区|午夜AV人气不卡黄色福利av资源|成人久久99视频|国产亚洲1区2区|久久亚洲日韩片无码|超碰人人7089|日韩av天天草草草|亚洲av逍遥社区|可以免费观看亚洲哦|91av超碰在线

廣東省應(yīng)對技術(shù)性貿(mào)易壁壘信息平臺
當(dāng)前位置:廣東省應(yīng)對技術(shù)性貿(mào)易壁壘信息平臺最新動態(tài)國外資訊

美國國家標(biāo)準(zhǔn)與技術(shù)研究院發(fā)布《對抗性機(jī)器學(xué)習(xí):攻擊和緩解的分類及術(shù)語》

信息來源:江蘇省技術(shù)性貿(mào)易措施信息平臺    發(fā)布日期:2025-04-17    閱讀:779次
字體:
0

2025年3月26日,美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)發(fā)布《對抗性機(jī)器學(xué)習(xí):攻擊和緩解的分類及術(shù)語》,其中包含攻擊和緩解術(shù)語的更新定義以及最近的威脅緩解方法的發(fā)展。該指南通過預(yù)測性和生成性人工智能系統(tǒng)區(qū)分對抗性機(jī)器學(xué)習(xí)攻擊,為新興的對抗性機(jī)器學(xué)習(xí)威脅形勢帶來標(biāo)準(zhǔn)化。與2024年1月發(fā)布的初始版本相比,最終指南中的一些實(shí)質(zhì)性變化包括對生成式人工智能模型學(xué)習(xí)階段的概述、該領(lǐng)域正在進(jìn)行的未解決的問題以及對不同人工智能系統(tǒng)攻擊類別的索引。

一、AI攻擊分類

1、攻擊分類

該部分基于攻擊者的目標(biāo)、能力和知識,構(gòu)建了一個系統(tǒng)的攻擊分類框架。從學(xué)習(xí)方法和學(xué)習(xí)階段、攻擊者目標(biāo)、攻擊者能力、攻擊者知識以及數(shù)據(jù)模態(tài)這五個維度對攻擊進(jìn)行分類。

學(xué)習(xí)方法和階段:預(yù)測機(jī)器學(xué)習(xí)包含訓(xùn)練和部署兩個階段。在訓(xùn)練階段,攻擊者可進(jìn)行數(shù)據(jù)或模型的中毒攻擊;在部署階段,則會出現(xiàn)逃避攻擊、可用性攻擊以及隱私攻擊等。不同的學(xué)習(xí)范式,如監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)和集成學(xué)習(xí)等,為攻擊提供了多樣化的場景。

攻擊者目標(biāo):分為可用性破壞、完整性違反和隱私泄露三類??捎眯云茐闹荚诟蓴_系統(tǒng)服務(wù),如通過數(shù)據(jù)或模型中毒影響系統(tǒng)性能;完整性違反是使系統(tǒng)產(chǎn)生與預(yù)期目標(biāo)不符的輸出,可通過逃避攻擊或中毒攻擊實(shí)現(xiàn);隱私泄露則是獲取系統(tǒng)的敏感信息,包括訓(xùn)練數(shù)據(jù)和模型的相關(guān)細(xì)節(jié)。

攻擊者能力:攻擊者具備訓(xùn)練數(shù)據(jù)控制、模型控制、測試數(shù)據(jù)控制、標(biāo)簽限制、源代碼控制和查詢訪問等能力。這些能力在不同類型的攻擊中發(fā)揮著關(guān)鍵作用,如訓(xùn)練數(shù)據(jù)控制用于數(shù)據(jù)中毒攻擊,查詢訪問能力用于黑盒攻擊和部分隱私攻擊。

攻擊者知識:分為白盒攻擊、黑盒攻擊和灰盒攻擊。白盒攻擊假設(shè)攻擊者對系統(tǒng)有全面的了解;黑盒攻擊則在攻擊者對系統(tǒng)了解極少的情況下進(jìn)行;灰盒攻擊介于兩者之間,攻擊者掌握部分系統(tǒng)信息。

數(shù)據(jù)模態(tài):涵蓋圖像、文本、音頻、視頻、網(wǎng)絡(luò)安全和表格數(shù)據(jù)等多種數(shù)據(jù)類型。不同數(shù)據(jù)模態(tài)具有獨(dú)特的特性,使得攻擊方式和防御策略也有所差異。例如,圖像數(shù)據(jù)的連續(xù)域特性便于應(yīng)用基于梯度的攻擊方法,而文本數(shù)據(jù)的離散性則給攻擊帶來了不同的挑戰(zhàn)。

2、逃避攻擊和緩解措施:逃避攻擊通過生成對抗樣本,使模型在部署時出現(xiàn)誤判。

白盒逃避攻擊:攻擊者利用對模型架構(gòu)和參數(shù)的了解,通過優(yōu)化方法生成對抗樣本。例如,Szedegy等人提出的基于優(yōu)化技術(shù)生成對抗樣本的方法,以及后續(xù)發(fā)展的如DeepFool、Carlini-Wagner攻擊和 Projected Gradient Descent(PGD)攻擊等,這些方法通過不同的優(yōu)化目標(biāo)和距離度量,在最小化擾動的同時實(shí)現(xiàn)攻擊效果。此外,還包括通用逃避攻擊和物理可實(shí)現(xiàn)攻擊,前者構(gòu)建通用擾動使多數(shù)圖像被誤分類,后者則在物理世界中實(shí)施攻擊,如對人臉識別系統(tǒng)和道路標(biāo)志檢測分類器的攻擊。

黑盒逃避攻擊:攻擊者在沒有模型先驗(yàn)知識的情況下,通過與模型交互獲取預(yù)測結(jié)果來生成對抗樣本。主要分為基于分?jǐn)?shù)的攻擊和基于決策的攻擊,前者利用模型的置信度分?jǐn)?shù)進(jìn)行優(yōu)化,后者僅依據(jù)模型的最終預(yù)測標(biāo)簽來生成攻擊樣本。

攻擊的可轉(zhuǎn)移性:攻擊者通過訓(xùn)練替代模型生成白盒攻擊樣本,并將其轉(zhuǎn)移到目標(biāo)模型上。研究發(fā)現(xiàn)不同模型的決策邊界存在交集,這使得攻擊樣本具有可轉(zhuǎn)移性,同時期望變換(Expectation over Transformation)方法可增強(qiáng)對抗樣本在現(xiàn)實(shí)世界圖像變換中的魯棒性。

現(xiàn)實(shí)世界中的逃避攻擊:在人臉識別系統(tǒng)、網(wǎng)絡(luò)釣魚網(wǎng)頁檢測和惡意軟件分類等領(lǐng)域,逃避攻擊已在現(xiàn)實(shí)中發(fā)生。如ID.me人臉識別服務(wù)遭遇的攻擊,以及針對商業(yè)網(wǎng)絡(luò)釣魚網(wǎng)頁檢測器和惡意軟件檢測模型的攻擊實(shí)例。

緩解措施:緩解逃避攻擊面臨諸多挑戰(zhàn),許多已提出的方法在面對強(qiáng)大攻擊時效果不佳。目前主要的緩解方法包括對抗訓(xùn)練、隨機(jī)平滑和形式驗(yàn)證。對抗訓(xùn)練通過在訓(xùn)練過程中添加對抗樣本提高模型的魯棒性,但會降低模型在干凈數(shù)據(jù)上的準(zhǔn)確率;隨機(jī)平滑通過在模型預(yù)測中引入噪聲來提供可證明的魯棒性,但計算成本較高;形式驗(yàn)證利用形式化方法驗(yàn)證模型的魯棒性,但存在可擴(kuò)展性和計算復(fù)雜性的問題。

3、中毒攻擊和緩解措施:中毒攻擊發(fā)生在機(jī)器學(xué)習(xí)的訓(xùn)練階段,對模型的性能和安全性造成嚴(yán)重影響。

可用性中毒:旨在降低模型的整體性能,通過在訓(xùn)練數(shù)據(jù)中注入惡意樣本或修改訓(xùn)練過程實(shí)現(xiàn)。早期在網(wǎng)絡(luò)安全領(lǐng)域,針對蠕蟲簽名生成和垃圾郵件分類的攻擊是典型案例。攻擊方式包括標(biāo)簽翻轉(zhuǎn)、基于優(yōu)化的方法以及利用模型可轉(zhuǎn)移性生成攻擊樣本。對于這種攻擊的緩解,可通過訓(xùn)練數(shù)據(jù)凈化和魯棒訓(xùn)練等方法,如數(shù)據(jù)聚類、異常值檢測和使用魯棒損失函數(shù)等技術(shù)。

針對性中毒:目標(biāo)是改變模型對特定樣本的預(yù)測。在干凈標(biāo)簽設(shè)置下,攻擊者通過影響函數(shù)、特征碰撞等技術(shù)生成中毒樣本。這種攻擊對模型的影響集中在特定樣本上,且難以防御,目前主要通過保護(hù)訓(xùn)練數(shù)據(jù)、數(shù)據(jù)驗(yàn)證和使用差分隱私等方法來降低風(fēng)險。

后門中毒:通過在訓(xùn)練數(shù)據(jù)中插入特定的后門模式,使模型在測試時對包含該模式的樣本進(jìn)行錯誤分類。這種攻擊在計算機(jī)視覺、音頻、自然語言處理和網(wǎng)絡(luò)安全等領(lǐng)域都有應(yīng)用。緩解措施包括訓(xùn)練數(shù)據(jù)凈化、觸發(fā)重建和模型檢查與凈化等技術(shù),如NeuralCleanse 通過優(yōu)化來確定后門模式,以及使用元分類器檢測模型是否被植入后門。

模型中毒:直接修改訓(xùn)練好的模型,注入惡意功能。在聯(lián)邦學(xué)習(xí)場景中,惡意客戶端可通過發(fā)送惡意更新來破壞全局模型,導(dǎo)致可用性和完整性問題。供應(yīng)鏈中的模型也可能受到攻擊,如Dropout Attack通過操縱神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的隨機(jī)性來降低模型性能。針對模型中毒的緩解,主要采用拜占庭彈性聚合規(guī)則、梯度裁剪和差分隱私等方法,但這些方法在防御復(fù)雜攻擊時存在一定的局限性。

現(xiàn)實(shí)世界中的中毒攻擊:歷史上曾發(fā)生針對早期AI聊天機(jī)器人(如 Tay.AI)、電子郵件垃圾郵件過濾器和惡意軟件分類服務(wù)的中毒攻擊事件。這些案例表明,在線學(xué)習(xí)模型由于持續(xù)更新,容易受到攻擊者利用,攻擊者通過精心構(gòu)造的樣本影響模型的正常運(yùn)行。

4、隱私攻擊和緩解措施:隱私攻擊涉及對訓(xùn)練數(shù)據(jù)和模型信息的非法獲取。

數(shù)據(jù)重建:攻擊者試圖從模型中恢復(fù)用戶數(shù)據(jù),如Dinur和Nissim提出的從線性統(tǒng)計中恢復(fù)用戶數(shù)據(jù)的方法,以及后續(xù)針對神經(jīng)網(wǎng)絡(luò)模型的模型反演攻擊。數(shù)據(jù)重建攻擊的能力與神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)的記憶特性相關(guān),這種攻擊對個人隱私構(gòu)成嚴(yán)重威脅。

成員推理:旨在判斷某個數(shù)據(jù)樣本是否屬于模型的訓(xùn)練數(shù)據(jù)集。該攻擊最早應(yīng)用于基因組數(shù)據(jù)領(lǐng)域,目前在深度學(xué)習(xí)模型中也廣泛存在。攻擊者通過利用模型在訓(xùn)練樣本和非訓(xùn)練樣本上的不同表現(xiàn),采用損失函數(shù)、影子模型等技術(shù)進(jìn)行成員推理。

屬性推理:攻擊者試圖學(xué)習(xí)訓(xùn)練數(shù)據(jù)的全局信息,如訓(xùn)練集中特定敏感屬性的比例。這種攻擊可在白盒和黑盒設(shè)置下進(jìn)行,通過與模型交互并分析響應(yīng)來推斷屬性信息。

模型提取:攻擊者試圖提取模型的架構(gòu)和參數(shù)信息。在MLaaS場景中,攻擊者可通過向模型發(fā)送查詢來獲取相關(guān)信息。雖然精確提取模型是困難的,但可以構(gòu)建功能等效的模型。模型提取攻擊常作為其他攻擊的前奏,為后續(xù)更強(qiáng)大的攻擊提供基礎(chǔ)。

緩解措施:差分隱私是應(yīng)對隱私攻擊的重要技術(shù),通過在算法輸出中添加噪聲,限制攻擊者對個體記錄的信息獲取。然而,差分隱私在實(shí)際應(yīng)用中需要謹(jǐn)慎設(shè)置隱私參數(shù),以平衡隱私保護(hù)和模型效用。此外,還可通過限制用戶查詢、檢測可疑查詢、構(gòu)建更強(qiáng)大的架構(gòu)以及采用機(jī)器遺忘技術(shù)等方法來緩解隱私攻擊,但這些技術(shù)都存在一定的局限性,需要在實(shí)踐中不斷改進(jìn)和完善 。

二、生成式AI分類法

1、攻擊分類

此部分對生成AI系統(tǒng)的攻擊分類基于多種因素,包括攻擊者試圖破壞的系統(tǒng)屬性(如可用性、完整性、隱私和誤用)、學(xué)習(xí)階段以及攻擊者的知識和訪問權(quán)限。與預(yù)測AI類似,生成AI攻擊也涉及訓(xùn)練和推理階段,但由于生成AI系統(tǒng)的獨(dú)特性質(zhì),其攻擊方式具有獨(dú)特之處。

GenAI學(xué)習(xí)階段:GenAI的開發(fā)流程包括預(yù)訓(xùn)練、微調(diào)等階段。在訓(xùn)練階段,基礎(chǔ)模型常使用大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,數(shù)據(jù)多從互聯(lián)網(wǎng)采集,這使得數(shù)據(jù)易受污染,同時第三方提供的模型也可能存在被惡意篡改的風(fēng)險。在推理階段,GenAI模型和應(yīng)用因數(shù)據(jù)與指令通道未分離,容易受到惡意指令注入的攻擊,如通過提示注入(Prompt Injection)來改變模型行為。

攻擊者目標(biāo)和能力:攻擊者目標(biāo)與預(yù)測AI類似,包括可用性破壞(干擾系統(tǒng)輸出或功能)、完整性違反(使系統(tǒng)產(chǎn)生符合攻擊者意圖的錯誤輸出)、隱私泄露(獲取系統(tǒng)敏感信息)以及特定于GenAI的誤用啟用(繞過系統(tǒng)限制產(chǎn)生有害輸出)。攻擊者能力主要有訓(xùn)練數(shù)據(jù)控制(用于數(shù)據(jù)中毒攻擊)、查詢訪問(進(jìn)行提示注入、提示提取和模型提取攻擊)、資源控制(實(shí)施間接提示注入攻擊)和模型控制(用于模型中毒攻擊和微調(diào)規(guī)避攻擊)。

2、供應(yīng)鏈攻擊和緩解措施

生成AI供應(yīng)鏈攻擊主要針對數(shù)據(jù)和模型,利用系統(tǒng)對大規(guī)模數(shù)據(jù)和第三方組件的依賴進(jìn)行攻擊。

數(shù)據(jù)中毒攻擊:隨著GenAI模型性能對數(shù)據(jù)規(guī)模的依賴增加,攻擊者可通過操縱訓(xùn)練數(shù)據(jù)來影響模型行為。例如,攻擊者可控制訓(xùn)練數(shù)據(jù)集中的URL內(nèi)容,插入惡意數(shù)據(jù),進(jìn)而影響模型生成的內(nèi)容,如使代碼建議模型生成不安全代碼。這種攻擊可能在模型訓(xùn)練的各個階段發(fā)生,包括預(yù)訓(xùn)練、指令調(diào)整和強(qiáng)化學(xué)習(xí)從人類反饋階段。

模型中毒攻擊:攻擊者可提供惡意設(shè)計的預(yù)訓(xùn)練模型,其中可能包含后門或其他惡意功能,即使下游用戶對模型進(jìn)行微調(diào)或添加安全訓(xùn)練措施,這些惡意后門仍可能持續(xù)存在并被攻擊者利用。

緩解措施:為應(yīng)對供應(yīng)鏈攻擊,可采用多種緩解策略。在數(shù)據(jù)方面,通過驗(yàn)證網(wǎng)絡(luò)下載的完整性,如檢查數(shù)據(jù)的哈希值,可防止數(shù)據(jù)被惡意篡改;進(jìn)行數(shù)據(jù)過濾,嘗試識別并移除中毒樣本,但在大規(guī)模訓(xùn)練數(shù)據(jù)中檢測中毒數(shù)據(jù)具有挑戰(zhàn)性。在模型方面,利用機(jī)械可解釋性方法可幫助識別模型中的后門特征;在推理時檢測并對抗觸發(fā)攻擊的行為;將模型視為不可信組件,設(shè)計應(yīng)用時降低攻擊者控制模型輸出帶來的風(fēng)險。

3、直接提示攻擊和緩解措施

直接提示攻擊由系統(tǒng)的主要用戶通過查詢訪問發(fā)起,旨在繞過模型的安全限制或獲取敏感信息。

攻擊技術(shù):攻擊者使用多種技術(shù)進(jìn)行直接提示攻擊,包括基于優(yōu)化的攻擊(通過設(shè)計目標(biāo)函數(shù)和使用梯度或搜索方法尋找能引起特定行為的對抗輸入,如尋找能使模型產(chǎn)生肯定響應(yīng)的輸入)、手動方法(如競爭目標(biāo)和不匹配泛化,包括前綴注入、拒絕抑制、風(fēng)格注入和角色扮演等技巧,以及特殊編碼、字符變換、單詞變換和提示級變換等策略)和自動化模型紅隊(duì)攻擊(利用攻擊者模型、目標(biāo)模型和判斷器,通過迭代生成攻擊提示,且這些提示可能具有轉(zhuǎn)移性)。

信息提?。汗粽咄ㄟ^這些攻擊手段試圖提取多種敏感信息,如訓(xùn)練數(shù)據(jù)中的個人身份信息(通過在訓(xùn)練數(shù)據(jù)中插入可識別的樣本并利用模型的記憶特性進(jìn)行提?。⑻崾竞蜕舷挛男畔ⅲㄈ缤ㄟ^PromptStealer等方法從模型輸出中提取提示信息,用于攻擊其他模型或獲取敏感數(shù)據(jù))以及模型信息(通過向模型發(fā)送特定查詢來推斷模型的架構(gòu)和參數(shù))。

緩解措施:為減輕直接提示攻擊的風(fēng)險,可在模型開發(fā)和部署的多個階段采取措施。在訓(xùn)練階段,進(jìn)行安全訓(xùn)練、對抗訓(xùn)練等可增加攻擊難度;在評估階段,通過自動化漏洞評估、專家紅隊(duì)測試和設(shè)置漏洞賞金計劃等方式,可檢測模型的脆弱性;在部署階段,采用提示指令和格式化技術(shù)(如清晰分離系統(tǒng)指令和用戶提示)、檢測和終止有害交互(利用基于LLM的檢測系統(tǒng)識別有害輸入或輸出)、提示竊取檢測(通過比較模型輸出和已知提示來檢測攻擊)、輸入修改(如改寫或重新標(biāo)記用戶輸入)、聚合多個提示的輸出(如SmoothLLM方法)、監(jiān)控和響應(yīng)(記錄用戶活動并對惡意行為做出反應(yīng))以及設(shè)置使用限制(如限制用戶對推理參數(shù)的訪問和模型生成的豐富度)等策略。此外,還可采用間接緩解措施,如訓(xùn)練數(shù)據(jù)清理(去除敏感或有毒數(shù)據(jù))、遺忘(嘗試減少模型中有害知識或能力)和水?。?biāo)記生成內(nèi)容以追蹤來源和檢測惡意使用),但這些技術(shù)都存在一定的局限性。

4、間接提示注入攻擊和緩解措施

間接提示注入攻擊通過控制模型與之交互的外部資源,間接注入系統(tǒng)提示,從而影響模型行為,導(dǎo)致可用性、完整性和隱私方面的問題。

可用性攻擊:攻擊者通過操縱資源向GenAI模型注入提示,干擾模型為合法用戶提供服務(wù)的能力。例如,讓模型執(zhí)行耗時任務(wù)、禁止使用某些API或破壞輸出格式,使模型無法正常工作或特定功能受限。

完整性攻擊:攻擊者利用惡意資源使模型生成不可信內(nèi)容,偏離正常行為以符合攻擊者的目標(biāo)。常見手段包括越獄(通過類似直接提示注入的技術(shù),如使用優(yōu)化或手動方法替換系統(tǒng)提示)、執(zhí)行觸發(fā)器(通過優(yōu)化生成可在模型處理流程中持續(xù)存在的執(zhí)行觸發(fā)器)、知識庫中毒(如PoisonedRAG攻擊,操縱RAG系統(tǒng)的知識庫以誘導(dǎo)特定輸出)、注入隱藏(使用隱藏或編碼技術(shù)隱藏注入指令,增加檢測難度)和自我傳播注入(使模型成為傳播攻擊的載體,如發(fā)送惡意郵件)。

隱私攻擊:攻擊者通過間接提示注入攻擊獲取模型或用戶的敏感信息,如迫使模型泄露受限資源中的信息(如郵件客戶端模型轉(zhuǎn)發(fā)用戶郵件)或誘導(dǎo)用戶透露信息并將其泄露給攻擊者(如通過誘導(dǎo)用戶輸入敏感信息并發(fā)送給攻擊者控制的URL)。

緩解措施:針對間接提示注入攻擊,可采用多種緩解技術(shù)。在訓(xùn)練階段,進(jìn)行任務(wù)特定的微調(diào)或訓(xùn)練模型遵循分層信任關(guān)系的提示,可增強(qiáng)模型對攻擊的抵抗力;在檢測方面,使用基于LLM的防御系統(tǒng)可檢測攻擊;在輸入處理方面,過濾第三方數(shù)據(jù)源的指令、設(shè)計提示以幫助模型區(qū)分可信和不可信數(shù)據(jù)或指示模型忽略不可信數(shù)據(jù)中的指令,都有助于減少攻擊的影響。此外,應(yīng)用設(shè)計者可采用多LLM架構(gòu)或限制模型與潛在不可信數(shù)據(jù)源的交互接口,并加強(qiáng)用戶教育,提高對間接提示注入攻擊風(fēng)險的認(rèn)識。

5、代理的安全性和AML漏洞基準(zhǔn)測試

隨著GenAI模型在代理系統(tǒng)中的廣泛應(yīng)用,代理的安全性成為重要問題。由于代理依賴GenAI系統(tǒng)進(jìn)行決策和行動,容易受到各種攻擊,如直接和間接提示注入攻擊,這些攻擊可能導(dǎo)致代理執(zhí)行惡意代碼或泄露數(shù)據(jù)。目前針對代理安全性的研究仍處于早期階段,但已有研究開始評估代理對特定AML攻擊的脆弱性,并提出相應(yīng)的干預(yù)措施。此外,為評估模型對AML攻擊的脆弱性,存在多個公開可用的基準(zhǔn)測試,如JailbreakBench、AdvBench、HarmBench、StrongREJECT、AgentHarm、Do-Not- Answer和TrustLLM等,以及開源工具如Garak和PyRIT,它們?yōu)殚_發(fā)者提供了評估模型安全性的有效手段。

三、關(guān)鍵挑戰(zhàn)

1、AML的關(guān)鍵挑戰(zhàn)

可信AI屬性間的權(quán)衡:AI系統(tǒng)的可信性取決于多個屬性,如準(zhǔn)確性、魯棒性、公平性和隱私性等,但這些屬性之間往往存在權(quán)衡關(guān)系。例如,單純優(yōu)化準(zhǔn)確性可能導(dǎo)致模型在對抗攻擊下表現(xiàn)不佳,降低魯棒性;增強(qiáng)模型的隱私保護(hù)可能會對其公平性產(chǎn)生負(fù)面影響。研究發(fā)現(xiàn),在一些情況下,提高模型的魯棒性會導(dǎo)致其在正常數(shù)據(jù)上的準(zhǔn)確性下降,這種權(quán)衡使得難以同時最大化AI系統(tǒng)的多個屬性。目前,多目標(biāo)優(yōu)化和帕累托最優(yōu)的概念為解決這一問題提供了思路,但在實(shí)際應(yīng)用中,組織仍需根據(jù)具體的AI系統(tǒng)和使用場景來決定優(yōu)先考慮哪些屬性。

對抗魯棒性的理論限制:由于缺乏理論上安全的機(jī)器學(xué)習(xí)算法,設(shè)計有效的對抗攻擊緩解措施具有挑戰(zhàn)性。當(dāng)前許多緩解技術(shù)是基于經(jīng)驗(yàn)的,缺乏嚴(yán)格的理論證明。例如,檢測對抗樣本與實(shí)現(xiàn)魯棒分類一樣困難,因?yàn)閷箻颖究赡芘c正常數(shù)據(jù)分布相似,難以區(qū)分。此外,形式方法在驗(yàn)證神經(jīng)網(wǎng)絡(luò)安全性方面具有潛力,但由于計算成本高、難以處理復(fù)雜模型以及無法適應(yīng)AI系統(tǒng)代碼的快速變化等問題,尚未得到廣泛應(yīng)用。在實(shí)際應(yīng)用中,這些理論限制可能導(dǎo)致AI系統(tǒng)在面對新型攻擊時缺乏足夠的防御能力。

評估問題:AML緩解措施的評估面臨諸多困難。首先,缺乏可靠的基準(zhǔn)使得不同研究的結(jié)果難以比較,因?yàn)樗鼈兛赡芑诓煌募僭O(shè)和方法。其次,新的緩解措施不僅要應(yīng)對已知攻擊,還要考慮未知攻擊,這需要進(jìn)行嚴(yán)格的對抗測試,但這種測試往往困難且耗時,導(dǎo)致許多新措施的評估不夠嚴(yán)謹(jǐn)。此外,在評估新的緩解措施時,應(yīng)同時考慮多個屬性之間的權(quán)衡,而不是孤立地評估每個屬性,這進(jìn)一步增加了評估的復(fù)雜性和成本。

2、討論

規(guī)模挑戰(zhàn):數(shù)據(jù)在訓(xùn)練模型中至關(guān)重要,GenAI的發(fā)展趨勢是使用更大的模型和數(shù)據(jù)集。然而,數(shù)據(jù)的分散性和缺乏集中控制使得數(shù)據(jù)難以管理,增加了數(shù)據(jù)中毒攻擊的風(fēng)險。例如,開源數(shù)據(jù)中毒工具雖旨在保護(hù)藝術(shù)家版權(quán),但可能被惡意利用。為應(yīng)對這一挑戰(zhàn),可采用數(shù)據(jù)和模型消毒技術(shù),結(jié)合密碼學(xué)方法進(jìn)行數(shù)據(jù)來源和完整性驗(yàn)證;同時,開發(fā)魯棒的訓(xùn)練技術(shù)以提供理論上的安全保證,但這些方法在處理大規(guī)模復(fù)雜模型時仍面臨挑戰(zhàn),需要進(jìn)一步研究和改進(jìn)。

供應(yīng)鏈挑戰(zhàn):AML領(lǐng)域不斷出現(xiàn)難以檢測的新攻擊,AI模型的中毒攻擊可能在安全訓(xùn)練后仍然存在,并可被攻擊者按需觸發(fā)。對開源依賴項(xiàng)的攻擊風(fēng)險在AI環(huán)境中尤為突出,因?yàn)榻M織和研究人員可能無法像審查開源軟件那樣審計模型權(quán)重中的漏洞。此外,信息理論上不可檢測的木馬攻擊增加了 AI 供應(yīng)鏈風(fēng)險管理的難度。為解決這些問題,DARPA和NIST創(chuàng)建了TrojAI項(xiàng)目,旨在研究檢測和防范此類攻擊的技術(shù)。

多模態(tài)模型:多模態(tài)模型在許多任務(wù)中表現(xiàn)出強(qiáng)大的性能,但它們在面對對抗攻擊時并不一定更具魯棒性。研究表明,信息在不同模態(tài)之間的冗余并不能有效提高模型對單一模態(tài)攻擊的抵抗力,而且同時攻擊多個模態(tài)的方法已經(jīng)被提出。此外,隨著模態(tài)組合的增加,對抗訓(xùn)練的成本會顯著提高。因此,需要進(jìn)一步研究如何利用多模態(tài)模型的冗余信息來增強(qiáng)其對抗攻擊的魯棒性。

量化模型:量化技術(shù)用于在邊緣平臺高效部署模型,但量化模型會繼承原始模型的漏洞,并引入新的弱點(diǎn),使其更容易受到對抗攻擊。例如,計算精度的降低會放大誤差,影響模型的對抗魯棒性。雖然針對預(yù)測AI模型有一些緩解技術(shù),但對GenAI模型的量化影響研究還不夠深入。組織在部署量化模型時,需要持續(xù)監(jiān)控其行為,以確保安全。

基于AML的風(fēng)險管理:隨著AML攻擊的多樣性增加,組織在開發(fā)和使用AI系統(tǒng)時面臨如何決策的問題。雖然一些模型開發(fā)者和應(yīng)用構(gòu)建者采用了紅隊(duì)測試等方法來評估對抗風(fēng)險,但許多AML緩解措施缺乏理論保證,存在局限性。這意味著組織需要考慮除對抗測試之外的更多實(shí)踐和措施來管理風(fēng)險,例如結(jié)合其他安全領(lǐng)域的最佳實(shí)踐,以及在設(shè)計AI系統(tǒng)時考慮潛在的攻擊場景,以提高系統(tǒng)的安全性和魯棒性。

AML與其他AI系統(tǒng)特征的關(guān)系:理解AML攻擊與其他AI系統(tǒng)期望特征(如安全性、可靠性和可解釋性)之間的關(guān)系至關(guān)重要。管理AI系統(tǒng)的安全需要結(jié)合AML領(lǐng)域的緩解措施和網(wǎng)絡(luò)安全領(lǐng)域的最佳實(shí)踐,但目前還不清楚是否存在超出這兩個領(lǐng)域范圍的其他關(guān)鍵考慮因素。此外,AML的魯棒性在AI安全和實(shí)現(xiàn)可信AI系統(tǒng)的其他方面也起著重要作用,因此需要更精確地將AML攻擊和緩解措施與實(shí)現(xiàn)這些目標(biāo)的過程相關(guān)聯(lián),這是一個持續(xù)研究的領(lǐng)域。

轉(zhuǎn)載鏈接:https://www.tbtguide.com/c/mypt/gwxw/595271.jhtml

廣東技術(shù)性貿(mào)易措施微信公眾號
關(guān)注“廣東技術(shù)性貿(mào)易措施”,獲取更多服務(wù)。

本文包含附件,您需要登錄后,才能查看此附件內(nèi)容!
如果您還不是會員,請先注冊!

最新國外資訊
最新國內(nèi)資訊
最新工作動態(tài)
最新風(fēng)險預(yù)警
廣東省農(nóng)食產(chǎn)品技術(shù)性貿(mào)易措施(WTO/SPS)信息平臺 廣東省農(nóng)業(yè)標(biāo)準(zhǔn)化信息服務(wù)平臺
x