摘要眾所周知，神經網路影像分類器的對抗性範例是可轉移的：經過最佳化以被來源分類器錯誤分類的範例通常也會｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

SFI 頁面

論文資訊

類型：已發表論文
日期：2022-09-02

摘要

眾所周知，神經網路影像分類器的對抗性範例是可轉移的：經過最佳化以被來源分類器錯誤分類的範例通常也會被具有不同架構的分類器錯誤分類。然而，有針對性的對抗性範例（經過最佳化以分類為選定的目標類別）往往在架構之間的可移植性較差。雖然先前關於建立可轉移目標攻擊的研究主要集中在改進最佳化過程，但在這項工作中，我們研究了來源分類器的作用。在這裡，我們表明，將來源分類器訓練為「稍微穩健」（即對小規模對抗性範例具有穩健性）可以顯著提高目標攻擊的可轉移性，即使在卷積神經網路和變壓器等不同的架構之間也是如此。我們認為這個結果支持了一個非直觀的假設：在從非穩健（標準）到高度穩健的分類器的範圍內，那些僅僅稍微魯棒的分類器表現出最通用的特徵——這些特徵往往與在同一數據集上訓練的其他分類器學到的特徵重疊。我們提出的結果提供了對對抗性範例的本質以及所謂「魯棒」分類器背後的機制的深入了解。