聖塔非研究所

自主機器人的預測訊息與探索行為

2026-03-18 · 工作論文 · 更新 2026/03/18 下午03:25

摘要 複雜性的測量對於自主機器人領域具有直接意義,既可以作為行為分類的手段,也可以作為機器人行為自主發展的目標函數。在本文中,我們將感測器空間中的預測資訊視為兩輪機器人在有多個障礙物的矩形場地中移動的行為複雜性的度量。根據經驗發現,過去和未來感測器值之間的互資訊 (MI) 對於探索性且對環境敏感的行為具有最大值。這使得預測資訊成為此類行為自主發展的目標函數的潛在候選者。我們推導…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #420
  • 日期:2026-03-18

摘要

複雜性的測量對於自主機器人領域具有直接意義,既可以作為行為分類的手段,也可以作為機器人行為自主發展的目標函數。在本文中,我們將感測器空間中的預測資訊視為兩輪機器人在有多個障礙物的矩形場地中移動的行為複雜性的度量。根據經驗發現,過去和未來感測器值之間的互資訊 (MI) 對於探索性且對環境敏感的行為具有最大值。這使得預測資訊成為此類行為自主發展的目標函數的潛在候選者。我們推導了 MI 的理論表達式,以獲得梯度上升動力學的明確更新規則。有趣的是,在感覺運動動力學的線性或線性化模型的情況下,導出的學習規則的結構僅取決於動態特性,而 MI 的值僅會影響學習率。透過這種方式,可以避免資訊理論測量的採樣時間過大的問題。這個結果可以推廣,並可能有助於從複雜性理論測量中得出明確的學習規則。