本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:工作論文
- 編號:工作論文 #171
- 日期:2026-03-18
摘要
具身人工智慧領域的主要挑戰之一是複雜行為的開放式自主學習。我們的方法是使用獨立於任務、資訊驅動的內在動機來支持任務依賴的學習。這裡介紹的工作是我們研究預測資訊(感測器流的過去和未來的相互資訊)作為內在驅動力的初步步驟,理想地支援任何類型的任務獲取。先前的實驗表明,預測資訊(PI)是支持複雜行為的自主、開放式學習的良好候選者,因為 PI 的最大化對應於對形態和環境依賴的行為規律的探索。我們的想法是,可以利用這些規律來解決任何給定的任務。提出了三個不同的實驗,其結果得出這樣的結論:在情境策略梯度設定中,一般不建議將一步 PI 與外部獎勵函數的線性組合。只有對於困難的任務,才能以漸近性能損失為代價來實現極大的加速。