當(dāng)前位置：廣東省應(yīng)對技術(shù)性貿(mào)易壁壘信息平臺最新動態(tài)國外資訊

美國國家標(biāo)準(zhǔn)與技術(shù)研究院發(fā)布《對抗性機器學(xué)習(xí)：攻擊和緩解的分類及術(shù)語》

信息來源：江蘇省技術(shù)性貿(mào)易措施信息平臺發(fā)布日期：2025-04-17 閱讀：3590次

字體：大

小中大

2025年3月26日，美國國家標(biāo)準(zhǔn)與技術(shù)研究所（NIST）發(fā)布《對抗性機器學(xué)習(xí)：攻擊和緩解的分類及術(shù)語》，其中包含攻擊和緩解術(shù)語的更新定義以及最近的威脅緩解方法的發(fā)展。該指南通過預(yù)測性和生成性人工智能系統(tǒng)區(qū)分對抗性機器學(xué)習(xí)攻擊，為新興的對抗性機器學(xué)習(xí)威脅形勢帶來標(biāo)準(zhǔn)化。與2024年1月發(fā)布的初始版本相比，最終指南中的一些實質(zhì)性變化包括對生成式人工智能模型學(xué)習(xí)階段的概述、該領(lǐng)域正在進行的未解決的問題以及對不同人工智能系統(tǒng)攻擊類別的索引。

一、AI攻擊分類

1、攻擊分類

該部分基于攻擊者的目標(biāo)、能力和知識，構(gòu)建了一個系統(tǒng)的攻擊分類框架。從學(xué)習(xí)方法和學(xué)習(xí)階段、攻擊者目標(biāo)、攻擊者能力、攻擊者知識以及數(shù)據(jù)模態(tài)這五個維度對攻擊進行分類。

學(xué)習(xí)方法和階段：預(yù)測機器學(xué)習(xí)包含訓(xùn)練和部署兩個階段。在訓(xùn)練階段，攻擊者可進行數(shù)據(jù)或模型的中毒攻擊；在部署階段，則會出現(xiàn)逃避攻擊、可用性攻擊以及隱私攻擊等。不同的學(xué)習(xí)范式，如監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)和集成學(xué)習(xí)等，為攻擊提供了多樣化的場景。

攻擊者目標(biāo)：分為可用性破壞、完整性違反和隱私泄露三類?？捎眯云茐闹荚诟蓴_系統(tǒng)服務(wù)，如通過數(shù)據(jù)或模型中毒影響系統(tǒng)性能；完整性違反是使系統(tǒng)產(chǎn)生與預(yù)期目標(biāo)不符的輸出，可通過逃避攻擊或中毒攻擊實現(xiàn)；隱私泄露則是獲取系統(tǒng)的敏感信息，包括訓(xùn)練數(shù)據(jù)和模型的相關(guān)細(xì)節(jié)。

攻擊者能力：攻擊者具備訓(xùn)練數(shù)據(jù)控制、模型控制、測試數(shù)據(jù)控制、標(biāo)簽限制、源代碼控制和查詢訪問等能力。這些能力在不同類型的攻擊中發(fā)揮著關(guān)鍵作用，如訓(xùn)練數(shù)據(jù)控制用于數(shù)據(jù)中毒攻擊，查詢訪問能力用于黑盒攻擊和部分隱私攻擊。

攻擊者知識：分為白盒攻擊、黑盒攻擊和灰盒攻擊。白盒攻擊假設(shè)攻擊者對系統(tǒng)有全面的了解；黑盒攻擊則在攻擊者對系統(tǒng)了解極少的情況下進行；灰盒攻擊介于兩者之間，攻擊者掌握部分系統(tǒng)信息。

數(shù)據(jù)模態(tài)：涵蓋圖像、文本、音頻、視頻、網(wǎng)絡(luò)安全和表格數(shù)據(jù)等多種數(shù)據(jù)類型。不同數(shù)據(jù)模態(tài)具有獨特的特性，使得攻擊方式和防御策略也有所差異。例如，圖像數(shù)據(jù)的連續(xù)域特性便于應(yīng)用基于梯度的攻擊方法，而文本數(shù)據(jù)的離散性則給攻擊帶來了不同的挑戰(zhàn)。

2、逃避攻擊和緩解措施：逃避攻擊通過生成對抗樣本，使模型在部署時出現(xiàn)誤判。

白盒逃避攻擊：攻擊者利用對模型架構(gòu)和參數(shù)的了解，通過優(yōu)化方法生成對抗樣本。例如，Szedegy等人提出的基于優(yōu)化技術(shù)生成對抗樣本的方法，以及后續(xù)發(fā)展的如DeepFool、Carlini-Wagner攻擊和 Projected Gradient Descent（PGD）攻擊等，這些方法通過不同的優(yōu)化目標(biāo)和距離度量，在最小化擾動的同時實現(xiàn)攻擊效果。此外，還包括通用逃避攻擊和物理可實現(xiàn)攻擊，前者構(gòu)建通用擾動使多數(shù)圖像被誤分類，后者則在物理世界中實施攻擊，如對人臉識別系統(tǒng)和道路標(biāo)志檢測分類器的攻擊。

黑盒逃避攻擊：攻擊者在沒有模型先驗知識的情況下，通過與模型交互獲取預(yù)測結(jié)果來生成對抗樣本。主要分為基于分?jǐn)?shù)的攻擊和基于決策的攻擊，前者利用模型的置信度分?jǐn)?shù)進行優(yōu)化，后者僅依據(jù)模型的最終預(yù)測標(biāo)簽來生成攻擊樣本。

攻擊的可轉(zhuǎn)移性：攻擊者通過訓(xùn)練替代模型生成白盒攻擊樣本，并將其轉(zhuǎn)移到目標(biāo)模型上。研究發(fā)現(xiàn)不同模型的決策邊界存在交集，這使得攻擊樣本具有可轉(zhuǎn)移性，同時期望變換（Expectation over Transformation）方法可增強對抗樣本在現(xiàn)實世界圖像變換中的魯棒性。

現(xiàn)實世界中的逃避攻擊：在人臉識別系統(tǒng)、網(wǎng)絡(luò)釣魚網(wǎng)頁檢測和惡意軟件分類等領(lǐng)域，逃避攻擊已在現(xiàn)實中發(fā)生。如ID.me人臉識別服務(wù)遭遇的攻擊，以及針對商業(yè)網(wǎng)絡(luò)釣魚網(wǎng)頁檢測器和惡意軟件檢測模型的攻擊實例。

緩解措施：緩解逃避攻擊面臨諸多挑戰(zhàn)，許多已提出的方法在面對強大攻擊時效果不佳。目前主要的緩解方法包括對抗訓(xùn)練、隨機平滑和形式驗證。對抗訓(xùn)練通過在訓(xùn)練過程中添加對抗樣本提高模型的魯棒性，但會降低模型在干凈數(shù)據(jù)上的準(zhǔn)確率；隨機平滑通過在模型預(yù)測中引入噪聲來提供可證明的魯棒性，但計算成本較高；形式驗證利用形式化方法驗證模型的魯棒性，但存在可擴展性和計算復(fù)雜性的問題。

3、中毒攻擊和緩解措施：中毒攻擊發(fā)生在機器學(xué)習(xí)的訓(xùn)練階段，對模型的性能和安全性造成嚴(yán)重影響。

可用性中毒：旨在降低模型的整體性能，通過在訓(xùn)練數(shù)據(jù)中注入惡意樣本或修改訓(xùn)練過程實現(xiàn)。早期在網(wǎng)絡(luò)安全領(lǐng)域，針對蠕蟲簽名生成和垃圾郵件分類的攻擊是典型案例。攻擊方式包括標(biāo)簽翻轉(zhuǎn)、基于優(yōu)化的方法以及利用模型可轉(zhuǎn)移性生成攻擊樣本。對于這種攻擊的緩解，可通過訓(xùn)練數(shù)據(jù)凈化和魯棒訓(xùn)練等方法，如數(shù)據(jù)聚類、異常值檢測和使用魯棒損失函數(shù)等技術(shù)。

針對性中毒：目標(biāo)是改變模型對特定樣本的預(yù)測。在干凈標(biāo)簽設(shè)置下，攻擊者通過影響函數(shù)、特征碰撞等技術(shù)生成中毒樣本。這種攻擊對模型的影響集中在特定樣本上，且難以防御，目前主要通過保護訓(xùn)練數(shù)據(jù)、數(shù)據(jù)驗證和使用差分隱私等方法來降低風(fēng)險。

后門中毒：通過在訓(xùn)練數(shù)據(jù)中插入特定的后門模式，使模型在測試時對包含該模式的樣本進行錯誤分類。這種攻擊在計算機視覺、音頻、自然語言處理和網(wǎng)絡(luò)安全等領(lǐng)域都有應(yīng)用。緩解措施包括訓(xùn)練數(shù)據(jù)凈化、觸發(fā)重建和模型檢查與凈化等技術(shù)，如NeuralCleanse 通過優(yōu)化來確定后門模式，以及使用元分類器檢測模型是否被植入后門。

模型中毒：直接修改訓(xùn)練好的模型，注入惡意功能。在聯(lián)邦學(xué)習(xí)場景中，惡意客戶端可通過發(fā)送惡意更新來破壞全局模型，導(dǎo)致可用性和完整性問題。供應(yīng)鏈中的模型也可能受到攻擊，如Dropout Attack通過操縱神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的隨機性來降低模型性能。針對模型中毒的緩解，主要采用拜占庭彈性聚合規(guī)則、梯度裁剪和差分隱私等方法，但這些方法在防御復(fù)雜攻擊時存在一定的局限性。

現(xiàn)實世界中的中毒攻擊：歷史上曾發(fā)生針對早期AI聊天機器人（如 Tay.AI）、電子郵件垃圾郵件過濾器和惡意軟件分類服務(wù)的中毒攻擊事件。這些案例表明，在線學(xué)習(xí)模型由于持續(xù)更新，容易受到攻擊者利用，攻擊者通過精心構(gòu)造的樣本影響模型的正常運行。

4、隱私攻擊和緩解措施：隱私攻擊涉及對訓(xùn)練數(shù)據(jù)和模型信息的非法獲取。

數(shù)據(jù)重建：攻擊者試圖從模型中恢復(fù)用戶數(shù)據(jù)，如Dinur和Nissim提出的從線性統(tǒng)計中恢復(fù)用戶數(shù)據(jù)的方法，以及后續(xù)針對神經(jīng)網(wǎng)絡(luò)模型的模型反演攻擊。數(shù)據(jù)重建攻擊的能力與神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)的記憶特性相關(guān)，這種攻擊對個人隱私構(gòu)成嚴(yán)重威脅。

成員推理：旨在判斷某個數(shù)據(jù)樣本是否屬于模型的訓(xùn)練數(shù)據(jù)集。該攻擊最早應(yīng)用于基因組數(shù)據(jù)領(lǐng)域，目前在深度學(xué)習(xí)模型中也廣泛存在。攻擊者通過利用模型在訓(xùn)練樣本和非訓(xùn)練樣本上的不同表現(xiàn)，采用損失函數(shù)、影子模型等技術(shù)進行成員推理。

屬性推理：攻擊者試圖學(xué)習(xí)訓(xùn)練數(shù)據(jù)的全局信息，如訓(xùn)練集中特定敏感屬性的比例。這種攻擊可在白盒和黑盒設(shè)置下進行，通過與模型交互并分析響應(yīng)來推斷屬性信息。

模型提?。汗粽咴噲D提取模型的架構(gòu)和參數(shù)信息。在MLaaS場景中，攻擊者可通過向模型發(fā)送查詢來獲取相關(guān)信息。雖然精確提取模型是困難的，但可以構(gòu)建功能等效的模型。模型提取攻擊常作為其他攻擊的前奏，為后續(xù)更強大的攻擊提供基礎(chǔ)。

緩解措施：差分隱私是應(yīng)對隱私攻擊的重要技術(shù)，通過在算法輸出中添加噪聲，限制攻擊者對個體記錄的信息獲取。然而，差分隱私在實際應(yīng)用中需要謹(jǐn)慎設(shè)置隱私參數(shù)，以平衡隱私保護和模型效用。此外，還可通過限制用戶查詢、檢測可疑查詢、構(gòu)建更強大的架構(gòu)以及采用機器遺忘技術(shù)等方法來緩解隱私攻擊，但這些技術(shù)都存在一定的局限性，需要在實踐中不斷改進和完善。

二、生成式AI分類法

1、攻擊分類

此部分對生成AI系統(tǒng)的攻擊分類基于多種因素，包括攻擊者試圖破壞的系統(tǒng)屬性（如可用性、完整性、隱私和誤用）、學(xué)習(xí)階段以及攻擊者的知識和訪問權(quán)限。與預(yù)測AI類似，生成AI攻擊也涉及訓(xùn)練和推理階段，但由于生成AI系統(tǒng)的獨特性質(zhì)，其攻擊方式具有獨特之處。

GenAI學(xué)習(xí)階段：GenAI的開發(fā)流程包括預(yù)訓(xùn)練、微調(diào)等階段。在訓(xùn)練階段，基礎(chǔ)模型常使用大規(guī)模數(shù)據(jù)進行預(yù)訓(xùn)練，數(shù)據(jù)多從互聯(lián)網(wǎng)采集，這使得數(shù)據(jù)易受污染，同時第三方提供的模型也可能存在被惡意篡改的風(fēng)險。在推理階段，GenAI模型和應(yīng)用因數(shù)據(jù)與指令通道未分離，容易受到惡意指令注入的攻擊，如通過提示注入（Prompt Injection）來改變模型行為。

攻擊者目標(biāo)和能力：攻擊者目標(biāo)與預(yù)測AI類似，包括可用性破壞（干擾系統(tǒng)輸出或功能）、完整性違反（使系統(tǒng)產(chǎn)生符合攻擊者意圖的錯誤輸出）、隱私泄露（獲取系統(tǒng)敏感信息）以及特定于GenAI的誤用啟用（繞過系統(tǒng)限制產(chǎn)生有害輸出）。攻擊者能力主要有訓(xùn)練數(shù)據(jù)控制（用于數(shù)據(jù)中毒攻擊）、查詢訪問（進行提示注入、提示提取和模型提取攻擊）、資源控制（實施間接提示注入攻擊）和模型控制（用于模型中毒攻擊和微調(diào)規(guī)避攻擊）。

2、供應(yīng)鏈攻擊和緩解措施

生成AI供應(yīng)鏈攻擊主要針對數(shù)據(jù)和模型，利用系統(tǒng)對大規(guī)模數(shù)據(jù)和第三方組件的依賴進行攻擊。

數(shù)據(jù)中毒攻擊：隨著GenAI模型性能對數(shù)據(jù)規(guī)模的依賴增加，攻擊者可通過操縱訓(xùn)練數(shù)據(jù)來影響模型行為。例如，攻擊者可控制訓(xùn)練數(shù)據(jù)集中的URL內(nèi)容，插入惡意數(shù)據(jù)，進而影響模型生成的內(nèi)容，如使代碼建議模型生成不安全代碼。這種攻擊可能在模型訓(xùn)練的各個階段發(fā)生，包括預(yù)訓(xùn)練、指令調(diào)整和強化學(xué)習(xí)從人類反饋階段。

模型中毒攻擊：攻擊者可提供惡意設(shè)計的預(yù)訓(xùn)練模型，其中可能包含后門或其他惡意功能，即使下游用戶對模型進行微調(diào)或添加安全訓(xùn)練措施，這些惡意后門仍可能持續(xù)存在并被攻擊者利用。

緩解措施：為應(yīng)對供應(yīng)鏈攻擊，可采用多種緩解策略。在數(shù)據(jù)方面，通過驗證網(wǎng)絡(luò)下載的完整性，如檢查數(shù)據(jù)的哈希值，可防止數(shù)據(jù)被惡意篡改；進行數(shù)據(jù)過濾，嘗試識別并移除中毒樣本，但在大規(guī)模訓(xùn)練數(shù)據(jù)中檢測中毒數(shù)據(jù)具有挑戰(zhàn)性。在模型方面，利用機械可解釋性方法可幫助識別模型中的后門特征；在推理時檢測并對抗觸發(fā)攻擊的行為；將模型視為不可信組件，設(shè)計應(yīng)用時降低攻擊者控制模型輸出帶來的風(fēng)險。

3、直接提示攻擊和緩解措施

直接提示攻擊由系統(tǒng)的主要用戶通過查詢訪問發(fā)起，旨在繞過模型的安全限制或獲取敏感信息。

攻擊技術(shù)：攻擊者使用多種技術(shù)進行直接提示攻擊，包括基于優(yōu)化的攻擊（通過設(shè)計目標(biāo)函數(shù)和使用梯度或搜索方法尋找能引起特定行為的對抗輸入，如尋找能使模型產(chǎn)生肯定響應(yīng)的輸入）、手動方法（如競爭目標(biāo)和不匹配泛化，包括前綴注入、拒絕抑制、風(fēng)格注入和角色扮演等技巧，以及特殊編碼、字符變換、單詞變換和提示級變換等策略）和自動化模型紅隊攻擊（利用攻擊者模型、目標(biāo)模型和判斷器，通過迭代生成攻擊提示，且這些提示可能具有轉(zhuǎn)移性）。

信息提取：攻擊者通過這些攻擊手段試圖提取多種敏感信息，如訓(xùn)練數(shù)據(jù)中的個人身份信息（通過在訓(xùn)練數(shù)據(jù)中插入可識別的樣本并利用模型的記憶特性進行提取）、提示和上下文信息（如通過PromptStealer等方法從模型輸出中提取提示信息，用于攻擊其他模型或獲取敏感數(shù)據(jù)）以及模型信息（通過向模型發(fā)送特定查詢來推斷模型的架構(gòu)和參數(shù)）。

緩解措施：為減輕直接提示攻擊的風(fēng)險，可在模型開發(fā)和部署的多個階段采取措施。在訓(xùn)練階段，進行安全訓(xùn)練、對抗訓(xùn)練等可增加攻擊難度；在評估階段，通過自動化漏洞評估、專家紅隊測試和設(shè)置漏洞賞金計劃等方式，可檢測模型的脆弱性；在部署階段，采用提示指令和格式化技術(shù)（如清晰分離系統(tǒng)指令和用戶提示）、檢測和終止有害交互（利用基于LLM的檢測系統(tǒng)識別有害輸入或輸出）、提示竊取檢測（通過比較模型輸出和已知提示來檢測攻擊）、輸入修改（如改寫或重新標(biāo)記用戶輸入）、聚合多個提示的輸出（如SmoothLLM方法）、監(jiān)控和響應(yīng)（記錄用戶活動并對惡意行為做出反應(yīng)）以及設(shè)置使用限制（如限制用戶對推理參數(shù)的訪問和模型生成的豐富度）等策略。此外，還可采用間接緩解措施，如訓(xùn)練數(shù)據(jù)清理（去除敏感或有毒數(shù)據(jù)）、遺忘（嘗試減少模型中有害知識或能力）和水?。?biāo)記生成內(nèi)容以追蹤來源和檢測惡意使用），但這些技術(shù)都存在一定的局限性。

4、間接提示注入攻擊和緩解措施

間接提示注入攻擊通過控制模型與之交互的外部資源，間接注入系統(tǒng)提示，從而影響模型行為，導(dǎo)致可用性、完整性和隱私方面的問題。

可用性攻擊：攻擊者通過操縱資源向GenAI模型注入提示，干擾模型為合法用戶提供服務(wù)的能力。例如，讓模型執(zhí)行耗時任務(wù)、禁止使用某些API或破壞輸出格式，使模型無法正常工作或特定功能受限。

完整性攻擊：攻擊者利用惡意資源使模型生成不可信內(nèi)容，偏離正常行為以符合攻擊者的目標(biāo)。常見手段包括越獄（通過類似直接提示注入的技術(shù)，如使用優(yōu)化或手動方法替換系統(tǒng)提示）、執(zhí)行觸發(fā)器（通過優(yōu)化生成可在模型處理流程中持續(xù)存在的執(zhí)行觸發(fā)器）、知識庫中毒（如PoisonedRAG攻擊，操縱RAG系統(tǒng)的知識庫以誘導(dǎo)特定輸出）、注入隱藏（使用隱藏或編碼技術(shù)隱藏注入指令，增加檢測難度）和自我傳播注入（使模型成為傳播攻擊的載體，如發(fā)送惡意郵件）。

隱私攻擊：攻擊者通過間接提示注入攻擊獲取模型或用戶的敏感信息，如迫使模型泄露受限資源中的信息（如郵件客戶端模型轉(zhuǎn)發(fā)用戶郵件）或誘導(dǎo)用戶透露信息并將其泄露給攻擊者（如通過誘導(dǎo)用戶輸入敏感信息并發(fā)送給攻擊者控制的URL）。

緩解措施：針對間接提示注入攻擊，可采用多種緩解技術(shù)。在訓(xùn)練階段，進行任務(wù)特定的微調(diào)或訓(xùn)練模型遵循分層信任關(guān)系的提示，可增強模型對攻擊的抵抗力；在檢測方面，使用基于LLM的防御系統(tǒng)可檢測攻擊；在輸入處理方面，過濾第三方數(shù)據(jù)源的指令、設(shè)計提示以幫助模型區(qū)分可信和不可信數(shù)據(jù)或指示模型忽略不可信數(shù)據(jù)中的指令，都有助于減少攻擊的影響。此外，應(yīng)用設(shè)計者可采用多LLM架構(gòu)或限制模型與潛在不可信數(shù)據(jù)源的交互接口，并加強用戶教育，提高對間接提示注入攻擊風(fēng)險的認(rèn)識。

5、代理的安全性和AML漏洞基準(zhǔn)測試

隨著GenAI模型在代理系統(tǒng)中的廣泛應(yīng)用，代理的安全性成為重要問題。由于代理依賴GenAI系統(tǒng)進行決策和行動，容易受到各種攻擊，如直接和間接提示注入攻擊，這些攻擊可能導(dǎo)致代理執(zhí)行惡意代碼或泄露數(shù)據(jù)。目前針對代理安全性的研究仍處于早期階段，但已有研究開始評估代理對特定AML攻擊的脆弱性，并提出相應(yīng)的干預(yù)措施。此外，為評估模型對AML攻擊的脆弱性，存在多個公開可用的基準(zhǔn)測試，如JailbreakBench、AdvBench、HarmBench、StrongREJECT、AgentHarm、Do-Not- Answer和TrustLLM等，以及開源工具如Garak和PyRIT，它們?yōu)殚_發(fā)者提供了評估模型安全性的有效手段。

三、關(guān)鍵挑戰(zhàn)

1、AML的關(guān)鍵挑戰(zhàn)

可信AI屬性間的權(quán)衡：AI系統(tǒng)的可信性取決于多個屬性，如準(zhǔn)確性、魯棒性、公平性和隱私性等，但這些屬性之間往往存在權(quán)衡關(guān)系。例如，單純優(yōu)化準(zhǔn)確性可能導(dǎo)致模型在對抗攻擊下表現(xiàn)不佳，降低魯棒性；增強模型的隱私保護可能會對其公平性產(chǎn)生負(fù)面影響。研究發(fā)現(xiàn)，在一些情況下，提高模型的魯棒性會導(dǎo)致其在正常數(shù)據(jù)上的準(zhǔn)確性下降，這種權(quán)衡使得難以同時最大化AI系統(tǒng)的多個屬性。目前，多目標(biāo)優(yōu)化和帕累托最優(yōu)的概念為解決這一問題提供了思路，但在實際應(yīng)用中，組織仍需根據(jù)具體的AI系統(tǒng)和使用場景來決定優(yōu)先考慮哪些屬性。

對抗魯棒性的理論限制：由于缺乏理論上安全的機器學(xué)習(xí)算法，設(shè)計有效的對抗攻擊緩解措施具有挑戰(zhàn)性。當(dāng)前許多緩解技術(shù)是基于經(jīng)驗的，缺乏嚴(yán)格的理論證明。例如，檢測對抗樣本與實現(xiàn)魯棒分類一樣困難，因為對抗樣本可能與正常數(shù)據(jù)分布相似，難以區(qū)分。此外，形式方法在驗證神經(jīng)網(wǎng)絡(luò)安全性方面具有潛力，但由于計算成本高、難以處理復(fù)雜模型以及無法適應(yīng)AI系統(tǒng)代碼的快速變化等問題，尚未得到廣泛應(yīng)用。在實際應(yīng)用中，這些理論限制可能導(dǎo)致AI系統(tǒng)在面對新型攻擊時缺乏足夠的防御能力。

評估問題：AML緩解措施的評估面臨諸多困難。首先，缺乏可靠的基準(zhǔn)使得不同研究的結(jié)果難以比較，因為它們可能基于不同的假設(shè)和方法。其次，新的緩解措施不僅要應(yīng)對已知攻擊，還要考慮未知攻擊，這需要進行嚴(yán)格的對抗測試，但這種測試往往困難且耗時，導(dǎo)致許多新措施的評估不夠嚴(yán)謹(jǐn)。此外，在評估新的緩解措施時，應(yīng)同時考慮多個屬性之間的權(quán)衡，而不是孤立地評估每個屬性，這進一步增加了評估的復(fù)雜性和成本。

2、討論

規(guī)模挑戰(zhàn)：數(shù)據(jù)在訓(xùn)練模型中至關(guān)重要，GenAI的發(fā)展趨勢是使用更大的模型和數(shù)據(jù)集。然而，數(shù)據(jù)的分散性和缺乏集中控制使得數(shù)據(jù)難以管理，增加了數(shù)據(jù)中毒攻擊的風(fēng)險。例如，開源數(shù)據(jù)中毒工具雖旨在保護藝術(shù)家版權(quán)，但可能被惡意利用。為應(yīng)對這一挑戰(zhàn)，可采用數(shù)據(jù)和模型消毒技術(shù)，結(jié)合密碼學(xué)方法進行數(shù)據(jù)來源和完整性驗證；同時，開發(fā)魯棒的訓(xùn)練技術(shù)以提供理論上的安全保證，但這些方法在處理大規(guī)模復(fù)雜模型時仍面臨挑戰(zhàn)，需要進一步研究和改進。

供應(yīng)鏈挑戰(zhàn)：AML領(lǐng)域不斷出現(xiàn)難以檢測的新攻擊，AI模型的中毒攻擊可能在安全訓(xùn)練后仍然存在，并可被攻擊者按需觸發(fā)。對開源依賴項的攻擊風(fēng)險在AI環(huán)境中尤為突出，因為組織和研究人員可能無法像審查開源軟件那樣審計模型權(quán)重中的漏洞。此外，信息理論上不可檢測的木馬攻擊增加了 AI 供應(yīng)鏈風(fēng)險管理的難度。為解決這些問題，DARPA和NIST創(chuàng)建了TrojAI項目，旨在研究檢測和防范此類攻擊的技術(shù)。

多模態(tài)模型：多模態(tài)模型在許多任務(wù)中表現(xiàn)出強大的性能，但它們在面對對抗攻擊時并不一定更具魯棒性。研究表明，信息在不同模態(tài)之間的冗余并不能有效提高模型對單一模態(tài)攻擊的抵抗力，而且同時攻擊多個模態(tài)的方法已經(jīng)被提出。此外，隨著模態(tài)組合的增加，對抗訓(xùn)練的成本會顯著提高。因此，需要進一步研究如何利用多模態(tài)模型的冗余信息來增強其對抗攻擊的魯棒性。

量化模型：量化技術(shù)用于在邊緣平臺高效部署模型，但量化模型會繼承原始模型的漏洞，并引入新的弱點，使其更容易受到對抗攻擊。例如，計算精度的降低會放大誤差，影響模型的對抗魯棒性。雖然針對預(yù)測AI模型有一些緩解技術(shù)，但對GenAI模型的量化影響研究還不夠深入。組織在部署量化模型時，需要持續(xù)監(jiān)控其行為，以確保安全。

基于AML的風(fēng)險管理：隨著AML攻擊的多樣性增加，組織在開發(fā)和使用AI系統(tǒng)時面臨如何決策的問題。雖然一些模型開發(fā)者和應(yīng)用構(gòu)建者采用了紅隊測試等方法來評估對抗風(fēng)險，但許多AML緩解措施缺乏理論保證，存在局限性。這意味著組織需要考慮除對抗測試之外的更多實踐和措施來管理風(fēng)險，例如結(jié)合其他安全領(lǐng)域的最佳實踐，以及在設(shè)計AI系統(tǒng)時考慮潛在的攻擊場景，以提高系統(tǒng)的安全性和魯棒性。

AML與其他AI系統(tǒng)特征的關(guān)系：理解AML攻擊與其他AI系統(tǒng)期望特征（如安全性、可靠性和可解釋性）之間的關(guān)系至關(guān)重要。管理AI系統(tǒng)的安全需要結(jié)合AML領(lǐng)域的緩解措施和網(wǎng)絡(luò)安全領(lǐng)域的最佳實踐，但目前還不清楚是否存在超出這兩個領(lǐng)域范圍的其他關(guān)鍵考慮因素。此外，AML的魯棒性在AI安全和實現(xiàn)可信AI系統(tǒng)的其他方面也起著重要作用，因此需要更精確地將AML攻擊和緩解措施與實現(xiàn)這些目標(biāo)的過程相關(guān)聯(lián)，這是一個持續(xù)研究的領(lǐng)域。

轉(zhuǎn)載鏈接：https://www.tbtguide.com/c/mypt/gwxw/595271.jhtml

廣東技術(shù)性貿(mào)易措施微信公眾號
關(guān)注“廣東技術(shù)性貿(mào)易措施”，獲取更多服務(wù)。

本文包含附件，您需要登錄后，才能查看此附件內(nèi)容！
如果您還不是會員，請先注冊！

[上一篇]加拿大采取重大舉措應(yīng)對PFAS風(fēng)險

[下一篇]墨西哥IFT認(rèn)證流程預(yù)期將有延遲

狼友av免费一区|午夜AV人气不卡黄色福利av资源|成人久久99视频|国产亚洲1区2区|久久亚洲日韩片无码|超碰人人7089|日韩av天天草草草|亚洲av逍遥社区|可以免费观看亚洲哦|91av超碰在线

美國國家標(biāo)準(zhǔn)與技術(shù)研究院發(fā)布《對抗性機器學(xué)習(xí)：攻擊和緩解的分類及術(shù)語》

相關(guān)資訊