聖塔非研究所

摘要 有限理性玩家在重複玩遊戲時是否學會選擇均衡策略

2022-09-02 · 已發表論文 · 更新 2026/03/18 下午06:26

摘要 有限理性玩家在重複玩遊戲時是否學會選擇均衡策略?行為博弈論的大量文獻提出並實驗測試了各種學習演算法,但缺乏對其均衡收斂特性的比較分析。在本文中,我們分析了體驗加權吸引力(EWA),它概括了虛擬遊戲、最佳反應動態、強化學習以及複製動態。透過研究 2 x 2 遊戲的易處理性,我們在 EWA 簡化為其概括的學習規則的限制情況下恢復了一些眾所周知的結果,而且還獲得了其他參數化的新…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2022-09-02

摘要

有限理性玩家在重複玩遊戲時是否學會選擇均衡策略?行為博弈論的大量文獻提出並實驗測試了各種學習演算法,但缺乏對其均衡收斂特性的比較分析。在本文中,我們分析了體驗加權吸引力(EWA),它概括了虛擬遊戲、最佳反應動態、強化學習以及複製動態。透過研究 2 x 2 遊戲的易處理性,我們在 EWA 簡化為其概括的學習規則的限制情況下恢復了一些眾所周知的結果,而且還獲得了其他參數化的新結果。例如,我們表明,在協調博弈中,EWA 可能只會收斂到帕累託有效均衡,而永遠不會達到帕累托無效均衡;在囚徒困境博弈中,它可能會收斂到相互合作的固定點;並且對於先前遊戲的記憶較長或較短,極限循環或混沌動態可能更有可能發生。