摘要眾所周知，接受視覺資料訓練的神經網路很容易受到難以察覺的對抗性擾動的影響｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

SFI 頁面

論文資訊

類型：已發表論文
日期：2022-09-02

摘要

眾所周知，接受視覺資料訓練的神經網路很容易受到難以察覺的對抗性擾動的影響。文獻中仍在爭論這種漏洞的原因。最近伊利亞斯等人。（2019）表明，這種漏洞的出現部分是因為神經網路分類器依賴高度預測但脆弱的「非穩健」特徵。在本文中，我們擴展了 Ilyas 等人的工作。透過研究產生這些特徵的輸入模式的性質。特別是，我們假設在以標準方式訓練的神經網路中，非魯棒特徵響應小的「非語義」模式，這些模式通常與更大的、魯棒的模式糾纏在一起，已知更容易被人類解釋，而不是僅僅響應資料集中的統計工件。因此，可以透過對這些小的、糾纏的模式進行最小的擾動來形成對抗性範例。此外，我們證明了我們的假設的推論：作為在非目標和目標設定中產生可轉移對抗性範例的來源，魯棒分類器比標準（非穩健）分類器更有效。我們在本文中提出的結果提供了對導致神經網路分類器對抗脆弱性的非穩健特徵本質的新見解。