本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:工作論文
- 編號:工作論文 #62
- 日期:2026-03-18
摘要
眾所周知,對於任何有限狀態馬可夫決策過程(MDP),都存在一個無記憶的確定性策略,可以最大化預期獎勵。對於部分可觀察馬可夫決策過程(POMDP),最佳無記憶策略通常是隨機的。我們研究一組無記憶隨機策略的預期獎勵最佳化問題。我們將其表述為約束線性最佳化問題,並開發了相應的幾何框架。我們證明任何 POMDP 都具有有限隨機性的最優無記憶策略,這使我們能夠減少搜尋空間的維度。實驗表明,這種方法可以在評估的系統上更好更快地收斂策略梯度。