接住棒球：運用神經網路的強化學習視角｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：工作論文
編號：工作論文 #1441
日期：2026-03-18

摘要

在棒球擊球手擊出飛球後不久，外野手必須決定是向前還是向後跑去接球。判斷飛球是一項艱鉅的任務，尤其是當守場員位於球軌跡平面時。文獻中存在幾種替代假設，這些假設識別了守場員可用的不同感知特徵，這些特徵可以提供關於球著陸點位置的有用線索。最近的一項實驗心理學研究表明，為了攔截球，守場員必須跑動，使得 $\tan\phi$ 相對於時間的二重導數接近於零 $d^2(\tan\phi)/dt^2\approx o$。其中 $\phi$ 是從守備角度來看球的仰角 (MCLeod & Dlenes 1993)。我們研究 $d^2(\tan\phi)/dt^2$ 資訊是否是在自適應啟發式批評 (${\cal AHC}$) 強化學習框架中學習此任務的有用線索。我們的結果提供了支持證據，表明 $d^2(\tan\phi)/dt^2$ 資訊在確定球的著陸點方面提供了強有力的初始提示，並在學習過程中發揮關鍵作用。然而，我們的模擬表明，在球飛行的後期階段，另一個感知特徵，即球相對於守場員的垂直速度 $(v_p)$，為著陸點的位置提供了更強的線索。經過訓練的網路可以推廣到新的環境，並且還表現出實驗心理學家在經驗豐富的外野手中記錄的一些特徵行為。我們相信，學習常見體力任務的學習方法以及類似動機的工作可以激發對該主題的有用的跨學科研究。