聖塔非研究所

一種有效估計Bagging泛化誤差的方法

2026-03-18 · 工作論文 · 更新 2026/03/18 下午11:52

摘要 在裝袋[Bre94a]中,人們使用訓練集[Efr79,ET93]的引導複製來嘗試提高學習演算法的效能。透過交叉驗證來估計測試集上產生的泛化誤差的計算要求通常令人望而卻步;對於留一法交叉驗證,需要以 $mv$ 次的順序訓練底層演算法,其中 $m$ 是訓練集的大小,$v$ 是重複次數。本文提出了幾種利用偏差 方差分解 [GBD92、Wol96] 來估計袋裝學習演算法的泛化誤差…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #1256
  • 日期:2026-03-18

摘要

在裝袋[Bre94a]中,人們使用訓練集[Efr79,ET93]的引導複製來嘗試提高學習演算法的效能。透過交叉驗證來估計測試集上產生的泛化誤差的計算要求通常令人望而卻步;對於留一法交叉驗證,需要以 $mv$ 次的順序訓練底層演算法,其中 $m$ 是訓練集的大小,$v$ 是重複次數。本文提出了幾種利用偏差-方差分解 [GBD92、Wol96] 來估計袋裝學習演算法的泛化誤差的技術,而無需對底層學習演算法進行更多訓練。我們最好的估計器利用了堆疊 [Wol92]。在此處報告的一組實驗中,發現它比基礎演算法誤差的替代的基於交叉驗證的估計器更準確。對於小型測試集,這種改進尤其明顯。這為使用 bagging 提供了一個新的理由——改進泛化誤差的估計。