情境政策梯度設定中一步預測資訊與外在獎勵的線性組合：批判性分析｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：工作論文
編號：工作論文 #171
日期：2026-03-18

摘要

具身人工智慧領域的主要挑戰之一是複雜行為的開放式自主學習。我們的方法是使用獨立於任務、資訊驅動的內在動機來支持任務依賴的學習。這裡介紹的工作是我們研究預測資訊（感測器流的過去和未來的相互資訊）作為內在驅動力的初步步驟，理想地支援任何類型的任務獲取。先前的實驗表明，預測資訊（PI）是支持複雜行為的自主、開放式學習的良好候選者，因為 PI 的最大化對應於對形態和環境依賴的行為規律的探索。我們的想法是，可以利用這些規律來解決任何給定的任務。提出了三個不同的實驗，其結果得出這樣的結論：在情境策略梯度設定中，一般不建議將一步 PI 與外部獎勵函數的線性組合。只有對於困難的任務，才能以漸近性能損失為代價來實現極大的加速。