聖塔非研究所

部分可觀測馬可夫決策過程中最優平穩控制的幾何與決定論

2026-03-18 · 工作論文 · 更新 2026/03/18 下午12:04

摘要 眾所周知,對於任何有限狀態馬可夫決策過程(MDP),都存在一個無記憶的確定性策略,可以最大化預期獎勵。對於部分可觀察馬可夫決策過程(POMDP),最佳無記憶策略通常是隨機的。我們研究一組無記憶隨機策略的預期獎勵最佳化問題。我們將其表述為約束線性最佳化問題,並開發了相應的幾何框架。我們證明任何 POMDP 都具有有限隨機性的最優無記憶策略,這使我們能夠減少搜尋空間的維度。實…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #62
  • 日期:2026-03-18

摘要

眾所周知,對於任何有限狀態馬可夫決策過程(MDP),都存在一個無記憶的確定性策略,可以最大化預期獎勵。對於部分可觀察馬可夫決策過程(POMDP),最佳無記憶策略通常是隨機的。我們研究一組無記憶隨機策略的預期獎勵最佳化問題。我們將其表述為約束線性最佳化問題,並開發了相應的幾何框架。我們證明任何 POMDP 都具有有限隨機性的最優無記憶策略,這使我們能夠減少搜尋空間的維度。實驗表明,這種方法可以在評估的系統上更好更快地收斂策略梯度。