個人如何學習輪流：擁擠賽局中交替合作的出現與囚徒困境｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：工作論文
編號：工作論文 #562
日期：2026-03-18

摘要

在許多社會困境中，個人往往會產生低迴報的情況，而不是系統最優的情況（「公地悲劇」）。流量路由有類似的問題？為了解決這個問題，我們提出了人類在電腦實驗室中玩路線選擇遊戲的實驗結果，這使得人們能夠研究超越囚徒困境的重複遊戲中的決策行為。我們將專注於個人是否能夠找到與系統最佳道路使用相容的合作且公平的解決方案。我們發現，個人在一開始就傾向於達到相同出行時間的使用者平衡。然而，經過多次迭代後，它們通常會建立一致的振盪行為，因為輪流比應用純策略或混合策略表現更好。由此產生的行為是公平的並且與系統最佳道路使用相容。儘管複雜的動力學導致協調振盪，但我們已經確定了量化觀察到的轉變過程的數學關係。我們針對 2 人和 4 人遊戲的主要實驗發現可以用針對任意人數的新穎強化學習模型來解釋，該模型基於過去的經驗和試錯行為。平均收益的成長似乎是時間相關回應模式創新的重要驅動力，也就是更複雜策略的演變。我們的研究結果與決策支援系統以及流量或資料網路中的路由相關。