後悔測驗：學習納許均衡的簡單的基於回報的程序｜聖塔非研究所

後悔測驗：學習納許均衡的簡單的基於回報的程序

2026-03-18 · 工作論文 · 更新 2026/03/18 下午04:56

摘要如果玩家不根據對手的收益來調整其策略，則學習規則是解耦的。如果玩家不根據對手的行為或利益來調整自己的策略，那麼它就完全脫節了。我們展示了一類簡單的完全解耦的學習規則，以願望學習模型為模式，其逐週期行為任意接近任何有限兩人遊戲中的納許均衡行為。

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

如果玩家不根據對手的收益來調整其策略，則學習規則是解耦的。如果玩家不根據對手的行為或利益來調整自己的策略，那麼它就完全脫節了。我們展示了一類簡單的完全解耦的學習規則，以願望學習模型為模式，其逐週期行為任意接近任何有限兩人遊戲中的納許均衡行為。