聖塔非研究所

摘要 深度神經網路的實際成功尚未與令人滿意地解釋其行為的理論進展相匹配

2022-09-02 · 已發表論文 · 更新 2026/03/19 上午12:46

摘要 深度神經網路的實際成功尚未與令人滿意地解釋其行為的理論進展相匹配。在這項工作中,我們研究了深度學習的資訊瓶頸(IB)理論,該理論提出了三個具體主張:首先,深度網絡經歷兩個不同的階段,包括初始擬合階段和隨後的壓縮階段;其次,壓縮階段與深度網絡優異的泛化性能存在因果關係;第三,壓縮階段是由於隨機梯度下降的類似擴散行為而發生的。在這裡,我們表明這些主張在一般情況下都不成立,而是…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2022-09-02

摘要

深度神經網路的實際成功尚未與令人滿意地解釋其行為的理論進展相匹配。在這項工作中,我們研究了深度學習的資訊瓶頸(IB)理論,該理論提出了三個具體主張:首先,深度網絡經歷兩個不同的階段,包括初始擬合階段和隨後的壓縮階段;其次,壓縮階段與深度網絡優異的泛化性能存在因果關係;第三,壓縮階段是由於隨機梯度下降的類似擴散行為而發生的。在這裡,我們表明這些主張在一般情況下都不成立,而是反映了在確定性網路中計算有限互資訊量測所做出的假設。當使用簡單的分箱進行計算時,我們透過分析結果和模擬的結合證明,在先前的工作中觀察到的資訊平面軌跡主要是所使用的神經非線性的函數:當神經激活進入飽和狀態時,像 tanh 這樣的雙邊飽和非線性會產生壓縮階段,但線性激活函數和單邊飽和非線性(如廣泛使用的 ReLU)實際上不會。此外,我們發現壓縮和泛化之間沒有明顯的因果關係:不壓縮的網絡仍然能夠泛化,反之亦然。接下來,我們透過證明我們可以使用全批量梯度下降而不是隨機梯度下降來複製 IB 結果,從而表明壓縮階段(如果存在)並不是由訓練中的隨機性引起的。最後,我們表明,當輸入域由任務相關和任務無關信息的子集組成時,隱藏表示確實會壓縮與任務無關的信息,儘管有關輸入的整體信息可能會隨著訓練時間單調增加,並且這種壓縮與擬合過程同時發生,而不是在後續壓縮期間發生。