摘要「強化學習」（RL）的無模型演算法已經在各個學科中獲得了影響力，但基於模型的替代方案也同樣如此｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：已發表論文
日期：2024-03-12

摘要

「強化學習」（RL）的無模型演算法已經在各個學科中獲得了影響力，但基於模型的替代方案也同樣如此。本研究強調此模型空間的其他向度，考慮跨狀態和行動的關聯或歧視性概括。這個「廣義強化學習」（GRL）模型是強化學習的節儉擴展，它簡約地保留了單一獎勵預測誤差（RPE），但學習的範圍超出了所經歷的狀態和動作。相反，廣義 RPE 被有效地中繼以對其他表示的值估計進行雙向反事實更新。在結構資訊的幫助下，GRL 作為一種隱式而非顯式的認知圖，在逆向學習任務中提供了對人類行為和個體差異的最精確描述，其層次結構鼓勵跨狀態和行動的逆概括。狀態概括反映了可能是正確的、錯誤的（即過度概括）或不存在（即概括不足）的推論，它比行動概括更能區分那些學得好的人。透過針對多巴胺能中腦的高解析度高場功能性磁振造影，GRL 模型的 RPE 訊號（以及數值和決策訊號）不僅定位於紋狀體，還定位於黑質和腹側被蓋區，包括也延伸到海馬的特定泛化效應。將泛化視為基於價值的學習中的多維過程，這些發現揭示了複雜性，儘管挑戰經典強化學習，但仍然可以在其核心計算的範圍內解決。