聖塔非研究所

後悔測驗:學習納許均衡的簡單的基於回報的程序

2026-03-18 · 工作論文 · 更新 2026/03/18 下午04:56

摘要 如果玩家不根據對手的收益來調整其策略,則學習規則是解耦的。如果玩家不根據對手的行為或利益來調整自己的策略,那麼它就完全脫節了。我們展示了一類簡單的完全解耦的學習規則,以願望學習模型為模式,其逐週期行為任意接近任何有限兩人遊戲中的納許均衡行為。

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #580
  • 日期:2026-03-18

摘要

如果玩家不根據對手的收益來調整其策略,則學習規則是解耦的。如果玩家不根據對手的行為或利益來調整自己的策略,那麼它就完全脫節了。我們展示了一類簡單的完全解耦的學習規則,以願望學習模型為模式,其逐週期行為任意接近任何有限兩人遊戲中的納許均衡行為。