訓練外集誤差和學習演算法之間的先驗區別｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：工作論文
編號：工作論文 #1395
日期：2026-03-18

摘要

本文使用訓練外集（OTS）誤差來研究學習演算法之間的無假設關係。寬鬆地說，對於任何兩個演算法 A 和 B，對於零一損失等損失函數，A 的預期 OTS 誤差低於 B 的目標（或目標的先驗）數量相同，反之亦然。特別是，如果 A 是交叉驗證且 B 是「反交叉驗證」（選擇具有最大交叉驗證誤差的泛化器），則情況如此。另一方面，對於零一以外的損失函數（例如二次損失），演算法之間存在先驗的差異。然而，即使對於這樣的損失函數，任何演算法平均都相當於其「隨機」版本，並且在平均誤差方面仍然沒有第一原理的合理性。另一方面，它表明（例如）交叉驗證可能比反交叉驗證具有更好的極小極大屬性，即使對於零一損失也是如此。本文也分析了假設而非目標的平均值。這樣的分析適用於所有可能的先驗。因此，作為一個特定的例子，他們證明交叉驗證不能被證明是貝葉斯過程。事實上，對於學習演算法類別的一種非常自然的限制，應該使用反交叉驗證而不是交叉驗證（！）。本文最後討論了這些結果對計算學習理論的影響。結果表明，我們不能說：如果經驗誤分類率低，則泛化器的 VC 維數就小；反之，則泛化器的 VC 維數就小。而且訓練集很大，那麼很有可能你的 OTS 誤差很小。也討論了「會員查詢」演算法和「投注」演算法的其他意義。