部分可觀測馬可夫決策過程中最優平穩控制的幾何與決定論｜聖塔非研究所

部分可觀測馬可夫決策過程中最優平穩控制的幾何與決定論

2026-03-18 · 工作論文 · 更新 2026/03/18 下午12:04

摘要眾所周知，對於任何有限狀態馬可夫決策過程（MDP），都存在一個無記憶的確定性策略，可以最大化預期獎勵。對於部分可觀察馬可夫決策過程（POMDP），最佳無記憶策略通常是隨機的。我們研究一組無記憶隨機策略的預期獎勵最佳化問題。我們將其表述為約束線性最佳化問題，並開發了相應的幾何框架。我們證明任何 POMDP 都具有有限隨機性的最優無記憶策略，這使我們能夠減少搜尋空間的維度。實…

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：工作論文
編號：工作論文 #62
日期：2026-03-18

摘要

眾所周知，對於任何有限狀態馬可夫決策過程（MDP），都存在一個無記憶的確定性策略，可以最大化預期獎勵。對於部分可觀察馬可夫決策過程（POMDP），最佳無記憶策略通常是隨機的。我們研究一組無記憶隨機策略的預期獎勵最佳化問題。我們將其表述為約束線性最佳化問題，並開發了相應的幾何框架。我們證明任何 POMDP 都具有有限隨機性的最優無記憶策略，這使我們能夠減少搜尋空間的維度。實驗表明，這種方法可以在評估的系統上更好更快地收斂策略梯度。