摘要有限理性玩家在重複玩遊戲時是否學會選擇均衡策略｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：已發表論文
日期：2022-09-02

摘要

有限理性玩家在重複玩遊戲時是否學會選擇均衡策略？行為博弈論的大量文獻提出並實驗測試了各種學習演算法，但缺乏對其均衡收斂特性的比較分析。在本文中，我們分析了體驗加權吸引力（EWA），它概括了虛擬遊戲、最佳反應動態、強化學習以及複製動態。透過研究 2 x 2 遊戲的易處理性，我們在 EWA 簡化為其概括的學習規則的限制情況下恢復了一些眾所周知的結果，而且還獲得了其他參數化的新結果。例如，我們表明，在協調博弈中，EWA 可能只會收斂到帕累託有效均衡，而永遠不會達到帕累托無效均衡；在囚徒困境博弈中，它可能會收斂到相互合作的固定點；並且對於先前遊戲的記憶較長或較短，極限循環或混沌動態可能更有可能發生。