0
| 本文作者: 陳淑瑜 | 2026-06-15 14:46 | 專題:ICML:國際機器學習會議 |
來源:公眾號“專知”
原文鏈接:https://mp.weixin.qq.com/s/wKPyQKCqzNw9a2FyhcEAxg?scene=1&click_id=26
大語言模型智能體進入真實環境后,常常需要連續完成一組相關任務:與同一用戶長期協作、反復調用工具、持續探索一個環境,或者多輪面對具有穩定行為模式的對手。此時,真正重要的不只是模型能否完成單次任務,而是它能否從已經發生的交互中吸取經驗,在后續任務中做得更好。這種能力通常被稱為測試時學習(Test-Time Learning,TTL)。
一種自然方案是為智能體維護顯式文本記憶:每次交互結束后總結經驗,再把記憶交給下一輪智能體。然而,當前許多記憶系統仍依賴人工設計的反思提示詞或更新規則。它們能夠生成“看起來合理”的總結,卻不保證這些總結真的有助于下游決策,更難在多輪交互中穩定完成證據積累、假設修正和策略更新。
來自北京大學、清華大學、智譜 AI 等機構的研究者在 ICML 2026 論文《From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory》中提出 MEMOPILOT。其核心思想非常直接:不更新負責行動的玩家模型,而是訓練一個獨立的“記憶副駕駛”,讓記憶更新本身成為可通過強化學習優化的策略。
MEMOPILOT 將跨局記憶演化建模為多輪馬爾可夫決策過程,并采用多輪 GRPO 訓練。每次記憶更新不再只追求語言上的完整或自然,而要對下一局的真實收益負責。實驗表明,在凍結玩家模型的條件下,MEMOPILOT 在石頭剪刀布和限注德州撲克中均取得最高 Elo,并能零樣本遷移到更強的 Qwen3-235B 玩家;在 CoSQL 和 DS-1000 兩個真實任務上也分別達到 73.5% 和 56.3%,說明這種方法學習到的不只是游戲技巧,而是一種更一般的經驗組織與行動指導能力。

論文:From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory
作者:Yishuo Cai、Xingyu Guo、Xuancheng Huang、Jinhua Du、Can Huang、Wenxuan Huang、Wenhan Ma、Yuyang Hu、Aohan Zeng、Jie Tang、Xu Sun
會議:ICML 2026
論文地址:https://arxiv.org/abs/2606.08656
測試時學習關注的是這樣一種在線過程:任務或交互按時間順序逐個到來,智能體無法提前看到未來,只能利用過去的經驗改善之后的表現。它不同于傳統訓練,因為部署階段通常不方便頻繁更新模型參數;也不同于普通上下文學習,因為交互可能很長,原始歷史會迅速超過上下文預算,并混入大量偶然、重復或無關信息。
顯式文本記憶因此成為一個很有吸引力的接口。它可以壓縮歷史、保留關鍵規律,并以自然語言形式向任意凍結模型提供指導。Reflexion、ExpeL、MemoryBank、Dynamic Cheatsheet 和 ReasoningBank 等工作已經證明,反思、經驗提煉和動態記憶可以提升智能體表現。
但“生成一段記憶”和“生成能提高未來獎勵的記憶”并不是同一件事。論文指出,手工提示驅動的記憶更新面臨三個根本問題。
第一,優化目標錯位。提示詞通常要求模型總結錯誤、提取規律或給出建議,卻沒有直接約束這些文本是否能讓下一次行動獲得更高收益。
第二,信用分配困難。某條記憶可能在下一輪立即奏效,也可能因為環境隨機性暫時失敗。若只看整段交互的累計回報,很難判斷究竟是哪一次記憶更新產生了作用。
第三,多輪演化能力不足。真正有用的記憶不是一次性總結,而應經歷“提出假設、收集證據、驗證或否定、修正策略”的循環。僅靠單輪反思,很容易把偶然事件誤判為穩定規律,或者在新證據出現后仍固守舊結論。
因此,論文把問題重新表述為:能否直接訓練一個記憶更新策略,使其產生的文本通過凍結玩家的后續行為,最大化跨多輪交互的累計收益?

MEMOPILOT 由兩個角色構成。
玩家模型
記憶模型
設第 \(t\) 局交互軌跡為 \(e_t\),收益為 \(r_t\),上一輪記憶為 \(m_{t-1}\),記憶模型為 \(G_\theta\),則新記憶為:
m_t = G_theta(e_t, m_{t-1})
隨后,凍結玩家 \(\pi\) 在第 \(t+1\) 局中使用 \(m_t\) 進行決策。也就是說,第 \(t\) 次記憶更新的質量,不由語言模型自評,而由它能否改善下一局表現來檢驗。
這一設計有兩個重要意義。其一,記憶模塊是即插即用的,可以與不同規模、不同來源的玩家模型組合。其二,訓練成本集中在較小的記憶更新模型上,無須對昂貴的主模型進行在線微調,也避免參數更新破壞玩家原有能力。

論文選擇多輪石頭剪刀布(RPS)和限注德州撲克(LHE)作為主要試驗場,并不是為了單純證明模型“會玩游戲”。這兩類環境同時滿足三個測試時學習條件:對手存在可利用的穩定結構;行為可以用明確規則控制和復現;每局都有清晰獎勵,可用于強化學習。德州撲克還包含不完全信息和發牌隨機性,可以檢驗模型能否區分真實策略信號與偶然結果。
作者將記憶生成形式化為馬爾可夫決策過程 \(M=(S,A,P,R)\)。
在第 \(t\) 輪,狀態為 s_t = (e_t, m_{t-1}),即剛結束的交互軌跡與此前記憶;動作是記憶模型生成的新文本 \(m_t\);狀態轉移由凍結玩家依據新記憶與環境、對手進行下一局交互而產生;獎勵則是游戲結果。
一段訓練 episode 包含連續 \(T\) 局游戲。第一局沒有學習后的指導,主要用于探索;從第一局結束后開始,記憶模型不斷更新記憶,玩家在后續局中使用它。理論目標是最大化所有記憶指導局的累計收益:
R(tau) = sum(r_(t+1)), t = 1 ... T-1
這個表述抓住了一個容易被忽略的事實:記憶不是被動數據庫,而是會改變未來行為、未來觀察乃至未來可獲得證據的決策變量。例如,記憶建議玩家采取更激進的試探動作,可能短期損失籌碼,卻暴露對手面對加注時的規律。因此,記憶更新天然具有序列決策屬性。
不過,直接使用長時程累計回報訓練會帶來嚴重噪聲。特別是在撲克中,未來收益同時受到記憶質量、發牌結果、位置和對手動作影響。一條優秀記憶可能因為下一局拿到差牌而得到低分;更遠期獎勵與當前記憶之間的因果關系則更加模糊。
為解決信用分配和高方差問題,MEMOPILOT 采用多輪 Group Relative Policy Optimization(GRPO),并對標準形式做了兩項關鍵改造。
對同一對手策略,舊策略模型并行采樣 \(G\) 條多輪軌跡。第 \(i\) 條軌跡在第 \(t\) 次生成記憶 \(m_{i,t}\) 后,作者把下一局收益直接作為該次記憶更新的代理回報:
R_(i,t) = r_(i,t+1)
這樣,第 \(t\) 次記憶負責解釋和改進第 \(t+1\) 局,而不是承擔后面所有隨機事件的結果。它雖然縮短了信用分配范圍,卻顯著降低了方差,并使訓練信號更貼近“這段建議是否立即可執行、是否確實有效”。
對于相同對手和相同輪次,作者比較不同并行 rollout 的下一局收益,計算組內中心化優勢:
A_(i,t) = R_(i,t) - mean({R_(i,t)} from i=1...G)
該優勢值被應用到同一次記憶生成的所有 token。最終優化維度從普通 GRPO 的“組、token”擴展為“組、輪次、token”。不同輪次的記憶更新獲得相對獨立的訓練信號,避免后期上下文和環境隨機性污染前期更新。
論文沒有除以組內標準差。作者遵循相關研究的經驗,保留獎勵尺度差異,以避免在方差很小的組中放大噪聲。訓練時仍使用裁剪重要性比率,以限制新舊策略偏移。

這種方法可以理解為一種“短反饋訓練、長過程演化”:每一步用低方差的下一局獎勵學習,但記憶狀態本身跨輪保留,因此模型仍能學會逐步積累和修正證據。
僅有強化學習目標仍不夠。文本記憶的動作空間極大,如果完全自由生成,模型可能寫出冗長復盤、模糊判斷或不便執行的建議。MEMOPILOT 為記憶規定了三層結構。
識別層分析最近軌跡中的證據,判斷上一輪策略為何成功或失敗,并更新關于對手的假設。它關注“看到了什么”和“這些現象說明什么”,承擔診斷功能。
維護層保存跨輪信念狀態。每條模式不僅記錄內容,還標注“假設、已驗證、已確認”等狀態,附帶觀察次數、成功次數和證據來源。在固定 512 token 的記憶預算內,這一層需要主動保留有價值信息、合并重復信息并淘汰失效判斷。
指導層把上面的分析壓縮成簡潔、可執行的規則,并且只有這一部分會交給凍結玩家。換言之,玩家無需閱讀完整推理和知識庫,只接收下一局應該如何行動的策略提示。
三層設計把“面向記憶模型的內部狀態”和“面向玩家模型的控制指令”分離開來。識別層允許展開分析,維護層保證長期一致性,指導層則降低玩家的認知負擔。這也是 MEMOPILOT 超越簡單歷史拼接的重要原因:原始軌跡包含信息,但并未替玩家完成從證據到行動的轉換。
作者構建了 32 個訓練 RPS 策略、45 個訓練 LHE 策略,以及 41 個留出策略,其中包括 32 個 RPS 和 9 個 LHE 測試對手。對手不是黑盒模型,而是由可執行自然語言指令定義,例如固定序列、根據上一步反應的規則、帶條件觸發的組合模式,以及撲克中的跟注站、特定街激進、延遲偷池和河牌詐唬等。
對手構建遵循“人類種子策略、LLM 擴寫與標準化、人工復核和試運行”的流程。訓練集與測試集按機制劃分,而非僅隨機拆分文字描述。留出對手會保留相近戰略意圖,但改變觸發條件、暴露信息的階段或規則組合,因而能夠測試記憶模型是否真的學會維護與修正假設。
主要實驗采用 Qwen2.5-14B-Instruct 作為凍結玩家和基礎記憶模型,并進一步把訓練好的 MEMOPILOT 零樣本接到 Qwen3-235B-A22B 玩家上。每種設置運行 64 次并報告均值。每局跨局記憶預算統一限制為 512 token,以保證與各類基線公平比較。
基線包括無記憶、完整歷史、人類編寫反制策略,以及 Reflexion、ExpeL、MemoryBank、AWM、ReasoningBank 等方法;還包括由 Qwen2.5-14B、DeepSeek-V3.2 和 Gemini-3.0-Flash 直接根據提示更新記憶的強模型基線。
在 Qwen2.5-14B 玩家上,無記憶基線的 RPS@5 得分為 0.43,LHE@5 為 -1.36。使用同一個 Qwen2.5-14B 通過提示詞更新記憶,只達到 0.21 和 -0.23;DeepSeek-V3.2 記憶模型取得 1.64 和 -0.78。這說明更強語言模型生成的反思不等于有效的在線學習策略。
MEMOPILOT 則達到 3.28 和 2.03,相對強基線分別提升 3.10 和 2.30。尤其在德州撲克中,它把原本為負的平均收益轉為顯著正收益。
將訓練好的記憶模型直接接入 Qwen3-235B-A22B,不進行任何再訓練,MEMOPILOT 在 RPS 和 LHE 上仍取得 3.27 和 1.31。這說明它沒有僅僅記住 Qwen2.5-14B 的措辭習慣,而是學會生成更一般的、可被不同玩家執行的策略指導。
在所有留出對手的綜合排名中,MEMOPILOT 在 LHE 上獲得 1762 Elo,在 RPS 上獲得 1590 Elo,兩項均排名第一。完整歷史輸入反而經常落后,表明更多上下文并不自動帶來更強適應能力;未經篩選的歷史會稀釋關鍵規律,并提高玩家模型的推理負擔。

值得注意的是,MEMOPILOT 的優勢會隨游戲推進迅速出現。這正是測試時學習應具備的特征:系統不是靠訓練集平均性能取勝,而是在面對一個此前未見的具體對手時,通過少量交互識別其模式并形成針對性策略。
為了檢驗方法是否只適用于博弈,作者進一步在 StreamBench 上評估 CoSQL 和 DS-1000。前者要求連續處理上下文相關的文本到 SQL 查詢,后者涉及數據科學代碼生成;兩者都需要從此前任務的反饋中積累可復用經驗。
在 CoSQL 上,無記憶、完整歷史、DeepSeek-V3.2 記憶和 Qwen2.5-14B 記憶的結果分別為 69.5%、70.0%、67.5% 和 66.0%,MEMOPILOT 達到 73.5%。
在 DS-1000 上,對應結果為 50.0%、52.5%、50.0% 和 48.8%,MEMOPILOT 達到 56.3%。這兩組結果尤其有啟發性:通用大模型的提示式總結可能刪除真正重要的失敗條件,甚至讓后續表現下降;經過獎勵訓練的記憶則更傾向于保留能改變下一次行動的信息。

作者直接把真實對手策略描述交給玩家,RPS 和 LHE 得分只有 0.75 和 -0.48;由人類專家編寫反制策略后,提升到 1.00 和 1.08;MEMOPILOT 則達到 3.28 和 2.07。
這個結果說明,事實正確性只是有用記憶的必要條件之一。玩家還需要把事實轉化為具體動作規則,并針對自身能力、環境約束和決策時機進行表達。MEMOPILOT 的訓練目標正是獎勵這種“可執行性”。
當作者讓 DeepSeek-V3.2 在不改變邏輯和數字的前提下,把 MEMOPILOT 記憶改寫成更自然的專業英語,成績從 3.28/2.07 降至 3.12/1.65。內容大體不變,表現仍發生下降,說明記憶的措辭、結構和指令強度也是智能體控制接口的一部分。
在 LHE 上,無記憶得分為 -1.36,完整歷史為 -1.22;僅使用三層提示結構但不訓練,可提升到 -0.23。采用強化學習但允許自由格式生成,得分達到 1.04;三層結構與強化學習結合后進一步達到 2.03。
因此,結構化提示提供了有效歸納偏置,幫助模型分離診斷、狀態維護和行動指導;強化學習則讓這些內容與實際收益對齊。結構不能替代優化,優化也會受益于合適的文本狀態空間。
作者比較兩輪和五輪訓練。兩輪訓練能夠學習快速反應,但五輪訓練在十局評測中表現更穩定,并在后期持續獲得更高累計收益。這說明多輪訓練不僅讓模型學會寫一條好建議,還讓它學會何時堅持已有判斷、何時因新證據調整信念。
面對對手 B 時,冷啟動 MEMOPILOT 在 RPS/LHE 上得到 3.28/2.03;先與另一個對手 A 交互再切換到 B,結果為 2.56/3.26;先與 B 交互后繼續面對 B,則達到 5.22/3.58。
同一對手的已有記憶顯著提高后續表現,證明系統確實積累了針對性知識。跨對手切換后仍保持較強收益,則表明記憶模型能夠覆蓋舊信念并重新適應,而不是簡單追加不可修改的經驗條目。
在 LHE 中,使用長時程累計獎勵訓練只得到 0.61,而使用下一局單步獎勵達到 2.03。撲克的發牌隨機性會讓遠期回報成為高噪聲監督,單步代理獎勵雖然更局部,卻提供了更可靠的因果信號。

MEMOPILOT 的主要困難來自“維護”和“修正”的矛盾。穩定環境中,保留已確認規律能減少無謂波動;但當對手頻繁改變策略時,舊記憶會成為負擔。
LHE 實驗中,面對固定對手時得分為 2.03;每五局切換一次對手降至 1.76;每兩局切換一次進一步降至 1.21;面對同樣擁有記憶、能夠主動適應的對手時為 1.25。變化速度越快,系統越難在有限證據下判斷當前異常是隨機波動還是策略已經改變。

未來可以引入顯式變化點檢測、記憶時間戳、假設衰減和多時間尺度狀態:短期層快速響應新跡象,長期層保存經過充分驗證的規律,并由門控機制決定何時覆蓋。
該方法需要多次相關交互以及能夠評價結果的獎勵。如果任務只有一次機會、反饋極度延遲,或者獎勵無法反映真實目標,就難以構造穩定訓練信號。現實系統還可能存在多目標沖突,例如正確率、成本、延遲和安全性必須同時權衡。
實驗將記憶限制為 512 token,這有利于公平比較和高效推理,但更長任務會要求分層壓縮、檢索和遺忘機制。僅靠單塊文本不斷改寫,可能錯誤刪除罕見卻關鍵的邊界條件。
可控對手池提供了清晰因果分析,但真實用戶、網頁、軟件工具和多智能體環境更加開放。觀察噪聲、目標漂移、工具故障和反饋偏差會同時出現。StreamBench 結果證明了一定遷移潛力,但還不足以代表長周期生產環境。
MEMOPILOT 最重要的貢獻,不是提出了又一種記憶提示模板,而是改變了記憶系統的訓練對象和評價標準。
過去,記憶通常被當作存儲層:系統關注寫入什么、如何檢索、如何壓縮。本文則把記憶更新視為一種策略,記憶文本是影響未來行動的控制信號。評價一段記憶時,不應只問它是否忠實、清晰和完整,還要問它是否讓下游智能體在下一次交互中采取了更好的動作。
這一視角對通用智能體系統有幾方面價值。
模塊化升級
行為對齊
持續學習
可解釋控制
新的優化邊界
對實際工程而言,一個值得借鑒的最小方案是:將長期交互壓縮為“證據、當前假設、驗證狀態、下一步行動規則”四類信息;用下一次任務的可測結果評價更新質量;把內部分析和給執行模型的指令分離;在環境變化時顯式降低舊假設置信度。即便不立即進行完整 RL 訓練,這些原則也能改善現有記憶管線。
MEMOPILOT 提出了一條清晰路線:讓凍結 LLM 智能體在測試時持續變強,不一定要在線修改主模型參數,也不應只依賴人工編寫的反思規則;可以訓練一個獨立記憶模型,把每次交互轉化為經過驗證、可維護、可執行的策略狀態。
多輪 MDP 建模解決了記憶演化問題,下一局代理獎勵和按輪 GRPO 提供了低方差信用分配,三層記憶結構則把診斷、信念維護與行動指導分開。其在 RPS、LHE、CoSQL 和 DS-1000 上的結果共同說明:真正有效的智能體記憶,不只是過去發生了什么的摘要,而是面向未來決策、能夠隨著證據持續修正的控制策略。
論文地址:https://arxiv.org/abs/2606.08656