本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:已發表論文
- 日期:2024-03-12
摘要
「強化學習」(RL)的無模型演算法已經在各個學科中獲得了影響力,但基於模型的替代方案也同樣如此。本研究強調此模型空間的其他向度,考慮跨狀態和行動的關聯或歧視性概括。這個「廣義強化學習」(GRL)模型是強化學習的節儉擴展,它簡約地保留了單一獎勵預測誤差(RPE),但學習的範圍超出了所經歷的狀態和動作。相反,廣義 RPE 被有效地中繼以對其他表示的值估計進行雙向反事實更新。在結構資訊的幫助下,GRL 作為一種隱式而非顯式的認知圖,在逆向學習任務中提供了對人類行為和個體差異的最精確描述,其層次結構鼓勵跨狀態和行動的逆概括。狀態概括反映了可能是正確的、錯誤的(即過度概括)或不存在(即概括不足)的推論,它比行動概括更能區分那些學得好的人。透過針對多巴胺能中腦的高解析度高場功能性磁振造影,GRL 模型的 RPE 訊號(以及數值和決策訊號)不僅定位於紋狀體,還定位於黑質和腹側被蓋區,包括也延伸到海馬的特定泛化效應。將泛化視為基於價值的學習中的多維過程,這些發現揭示了複雜性,儘管挑戰經典強化學習,但仍然可以在其核心計算的範圍內解決。