聖塔非研究所 後悔測驗:學習納許均衡的簡單的基於回報的程序 2026-03-18 · 工作論文 · 更新 2026/03/18 下午04:56 摘要 如果玩家不根據對手的收益來調整其策略,則學習規則是解耦的。如果玩家不根據對手的行為或利益來調整自己的策略,那麼它就完全脫節了。我們展示了一類簡單的完全解耦的學習規則,以願望學習模型為模式,其逐週期行為任意接近任何有限兩人遊戲中的納許均衡行為。 原文連結PDF 來源 本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。 原文連結 原文連結 PDF 來源 論文資訊 類型:工作論文 編號:工作論文 #580 日期:2026-03-18 摘要 如果玩家不根據對手的收益來調整其策略,則學習規則是解耦的。如果玩家不根據對手的行為或利益來調整自己的策略,那麼它就完全脫節了。我們展示了一類簡單的完全解耦的學習規則,以願望學習模型為模式,其逐週期行為任意接近任何有限兩人遊戲中的納許均衡行為。