聖塔非研究所

關於 2 臂高斯老虎機和優化

2026-03-18 · 工作論文 · 更新 2026/03/19 上午12:03

摘要 我們探索具有高斯收益的雙臂老虎機作為最佳化的理論模型。我們從貝葉斯角度闡述問題,並為 1 次拉動和 2 次拉動提供最佳策略。我們提出了參數空間區域,其中貪婪策略被證明是最佳的。我們也將貪婪策略和最優策略與基於遺傳演算法的策略進行了比較。在此過程中,我們修正了文獻中先前關於高斯強盜問題以及針對該問題的遺傳演算法的假設最適性的錯誤。最後,我們提供了一個分析上簡單的老虎機模型,…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #1284
  • 日期:2026-03-18

摘要

我們探索具有高斯收益的雙臂老虎機作為最佳化的理論模型。我們從貝葉斯角度闡述問題,並為 1 次拉動和 2 次拉動提供最佳策略。我們提出了參數空間區域,其中貪婪策略被證明是最佳的。我們也將貪婪策略和最優策略與基於遺傳演算法的策略進行了比較。在此過程中,我們修正了文獻中先前關於高斯強盜問題以及針對該問題的遺傳演算法的假設最適性的錯誤。最後,我們提供了一個分析上簡單的老虎機模型,它比傳統的老虎機問題更直接適用於最佳化理論,並為該模型確定了接近最優的策略。