聖塔非研究所

樣本內檢定與泛化誤差的聯繫

2026-03-18 · 工作論文 · 更新 2026/03/19 上午02:13

摘要 本文證明,僅使用「先驗」推理不可能證明訓練集的再現與訓練集的泛化誤差之間的相關性。因此,在現實世界中使用任何將假設函數擬合到訓練集的泛化器(例如,反向傳播的使用)都隱含地基於對物理宇宙的假設。本文展示如何用兩個向量之間的非歐幾里德內積來表達這個假設,一個向量代表物理宇宙,另一個向量代表泛化器。在得出這一結果的過程中,發展了一種用於解決機器學習問題的新穎形式主義。這種新的形…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #1592
  • 日期:2026-03-18

摘要

本文證明,僅使用「先驗」推理不可能證明訓練集的再現與訓練集的泛化誤差之間的相關性。因此,在現實世界中使用任何將假設函數擬合到訓練集的泛化器(例如,反向傳播的使用)都隱含地基於對物理宇宙的假設。本文展示如何用兩個向量之間的非歐幾里德內積來表達這個假設,一個向量代表物理宇宙,另一個向量代表泛化器。在得出這一結果的過程中,發展了一種用於解決機器學習問題的新穎形式主義。這種新的形式主義可以被視為傳統「貝葉斯」形式主義的延伸,它(除其他外)允許人們解決假設的「先驗」不完全正確的情況。這種新形式主義最重要的特點是它使用了一個極低階的事件空間,由「目標函數、假設函數和訓練集」三元組組成。部分由於此特徵,大多數為解決機器學習問題而建構的其他形式主義(例如 PAC、貝葉斯形式主義、「統計力學」形式主義)都是本文提出的形式主義的特例。因此,這種形式主義只能解決本文所討論問題的一部分。事實上,本文的形式主義可以用來解決我所知道的「所有」泛化問題:過度訓練、限制假設函數中自由參數數量的需要、與「非代表性」訓練集相關的問題、交叉驗證是否以及何時起作用、堆疊泛化是否以及何時起作用、特定正則化器是否以及何時起作用等等。本文關於這些及相關主題的一些更重要結果的摘要可以在結論中找到。