ICML 2026｜MEMOPILOT：用強化學習訓練會進化的智能體記憶

本文作者：陳淑瑜

2026-06-15 14:46

導語：不更新負責行動的玩家模型，而是訓練一個獨立的“記憶副駕駛”，讓記憶更新本身成為可通過強化學習優化的策略。

來源：公眾號“專知”

原文鏈接：https://mp.weixin.qq.com/s/wKPyQKCqzNw9a2FyhcEAxg?scene=1&click_id=26

大語言模型智能體進入真實環境后，常常需要連續完成一組相關任務：與同一用戶長期協作、反復調用工具、持續探索一個環境，或者多輪面對具有穩定行為模式的對手。此時，真正重要的不只是模型能否完成單次任務，而是它能否從已經發生的交互中吸取經驗，在后續任務中做得更好。這種能力通常被稱為測試時學習（Test-Time Learning，TTL）。

一種自然方案是為智能體維護顯式文本記憶：每次交互結束后總結經驗，再把記憶交給下一輪智能體。然而，當前許多記憶系統仍依賴人工設計的反思提示詞或更新規則。它們能夠生成“看起來合理”的總結，卻不保證這些總結真的有助于下游決策，更難在多輪交互中穩定完成證據積累、假設修正和策略更新。

來自北京大學、清華大學、智譜 AI 等機構的研究者在 ICML 2026 論文《From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory》中提出 MEMOPILOT。其核心思想非常直接：不更新負責行動的玩家模型，而是訓練一個獨立的“記憶副駕駛”，讓記憶更新本身成為可通過強化學習優化的策略。

MEMOPILOT 將跨局記憶演化建模為多輪馬爾可夫決策過程，并采用多輪 GRPO 訓練。每次記憶更新不再只追求語言上的完整或自然，而要對下一局的真實收益負責。實驗表明，在凍結玩家模型的條件下，MEMOPILOT 在石頭剪刀布和限注德州撲克中均取得最高 Elo，并能零樣本遷移到更強的 Qwen3-235B 玩家；在 CoSQL 和 DS-1000 兩個真實任務上也分別達到 73.5% 和 56.3%，說明這種方法學習到的不只是游戲技巧，而是一種更一般的經驗組織與行動指導能力。

論文：From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory

作者：Yishuo Cai、Xingyu Guo、Xuancheng Huang、Jinhua Du、Can Huang、Wenxuan Huang、Wenhan Ma、Yuyang Hu、Aohan Zeng、Jie Tang、Xu Sun

會議：ICML 2026

論文地址：https://arxiv.org/abs/2606.08656

一、問題背景：智能體為何需要“可訓練的記憶”

測試時學習關注的是這樣一種在線過程：任務或交互按時間順序逐個到來，智能體無法提前看到未來，只能利用過去的經驗改善之后的表現。它不同于傳統訓練，因為部署階段通常不方便頻繁更新模型參數；也不同于普通上下文學習，因為交互可能很長，原始歷史會迅速超過上下文預算，并混入大量偶然、重復或無關信息。

顯式文本記憶因此成為一個很有吸引力的接口。它可以壓縮歷史、保留關鍵規律，并以自然語言形式向任意凍結模型提供指導。Reflexion、ExpeL、MemoryBank、Dynamic Cheatsheet 和 ReasoningBank 等工作已經證明，反思、經驗提煉和動態記憶可以提升智能體表現。

但“生成一段記憶”和“生成能提高未來獎勵的記憶”并不是同一件事。論文指出，手工提示驅動的記憶更新面臨三個根本問題。

第一，優化目標錯位。提示詞通常要求模型總結錯誤、提取規律或給出建議，卻沒有直接約束這些文本是否能讓下一次行動獲得更高收益。

第二，信用分配困難。某條記憶可能在下一輪立即奏效，也可能因為環境隨機性暫時失敗。若只看整段交互的累計回報，很難判斷究竟是哪一次記憶更新產生了作用。

第三，多輪演化能力不足。真正有用的記憶不是一次性總結，而應經歷“提出假設、收集證據、驗證或否定、修正策略”的循環。僅靠單輪反思，很容易把偶然事件誤判為穩定規律，或者在新證據出現后仍固守舊結論。

因此，論文把問題重新表述為：能否直接訓練一個記憶更新策略，使其產生的文本通過凍結玩家的后續行為，最大化跨多輪交互的累計收益？

二、核心框架：玩家不變，記憶持續進化

MEMOPILOT 由兩個角色構成。

玩家模型
負責在當前環境中采取動作。它的參數始終凍結，而且跨局無狀態，只能看到當前局環境和記憶提供的行動建議。
記憶模型
讀取最新交互軌跡與上一輪記憶，生成新的記憶狀態。它是唯一需要訓練的模塊。

設第 \(t\) 局交互軌跡為 \(e_t\)，收益為 \(r_t\)，上一輪記憶為 \(m_{t-1}\)，記憶模型為 \(G_\theta\)，則新記憶為：

m_t = G_theta(e_t, m_{t-1})

隨后，凍結玩家 \(\pi\) 在第 \(t+1\) 局中使用 \(m_t\) 進行決策。也就是說，第 \(t\) 次記憶更新的質量，不由語言模型自評，而由它能否改善下一局表現來檢驗。

這一設計有兩個重要意義。其一，記憶模塊是即插即用的，可以與不同規模、不同來源的玩家模型組合。其二，訓練成本集中在較小的記憶更新模型上，無須對昂貴的主模型進行在線微調，也避免參數更新破壞玩家原有能力。

論文選擇多輪石頭剪刀布（RPS）和限注德州撲克（LHE）作為主要試驗場，并不是為了單純證明模型“會玩游戲”。這兩類環境同時滿足三個測試時學習條件：對手存在可利用的穩定結構；行為可以用明確規則控制和復現；每局都有清晰獎勵，可用于強化學習。德州撲克還包含不完全信息和發牌隨機性，可以檢驗模型能否區分真實策略信號與偶然結果。

三、把記憶更新建模為多輪決策過程

作者將記憶生成形式化為馬爾可夫決策過程 \(M=(S,A,P,R)\)。

在第 \(t\) 輪，狀態為 s_t = (e_t, m_{t-1})，即剛結束的交互軌跡與此前記憶；動作是記憶模型生成的新文本 \(m_t\)；狀態轉移由凍結玩家依據新記憶與環境、對手進行下一局交互而產生；獎勵則是游戲結果。

一段訓練 episode 包含連續 \(T\) 局游戲。第一局沒有學習后的指導，主要用于探索；從第一局結束后開始，記憶模型不斷更新記憶，玩家在后續局中使用它。理論目標是最大化所有記憶指導局的累計收益：

R(tau) = sum(r_(t+1)), t = 1 ... T-1

這個表述抓住了一個容易被忽略的事實：記憶不是被動數據庫，而是會改變未來行為、未來觀察乃至未來可獲得證據的決策變量。例如，記憶建議玩家采取更激進的試探動作，可能短期損失籌碼，卻暴露對手面對加注時的規律。因此，記憶更新天然具有序列決策屬性。

不過，直接使用長時程累計回報訓練會帶來嚴重噪聲。特別是在撲克中，未來收益同時受到記憶質量、發牌結果、位置和對手動作影響。一條優秀記憶可能因為下一局拿到差牌而得到低分；更遠期獎勵與當前記憶之間的因果關系則更加模糊。

四、多輪 GRPO：讓每次記憶為下一局負責

為解決信用分配和高方差問題，MEMOPILOT 采用多輪 Group Relative Policy Optimization（GRPO），并對標準形式做了兩項關鍵改造。

4.1 下一局獎勵作為單步代理信號

對同一對手策略，舊策略模型并行采樣 \(G\) 條多輪軌跡。第 \(i\) 條軌跡在第 \(t\) 次生成記憶 \(m_{i,t}\) 后，作者把下一局收益直接作為該次記憶更新的代理回報：

R_(i,t) = r_(i,t+1)

這樣，第 \(t\) 次記憶負責解釋和改進第 \(t+1\) 局，而不是承擔后面所有隨機事件的結果。它雖然縮短了信用分配范圍，卻顯著降低了方差，并使訓練信號更貼近“這段建議是否立即可執行、是否確實有效”。

4.2 按輪次進行組內相對優勢估計

對于相同對手和相同輪次，作者比較不同并行 rollout 的下一局收益，計算組內中心化優勢：

A_(i,t) = R_(i,t) - mean({R_(i,t)} from i=1...G)

該優勢值被應用到同一次記憶生成的所有 token。最終優化維度從普通 GRPO 的“組、token”擴展為“組、輪次、token”。不同輪次的記憶更新獲得相對獨立的訓練信號，避免后期上下文和環境隨機性污染前期更新。

論文沒有除以組內標準差。作者遵循相關研究的經驗，保留獎勵尺度差異，以避免在方差很小的組中放大噪聲。訓練時仍使用裁剪重要性比率，以限制新舊策略偏移。

這種方法可以理解為一種“短反饋訓練、長過程演化”：每一步用低方差的下一局獎勵學習，但記憶狀態本身跨輪保留，因此模型仍能學會逐步積累和修正證據。

五、三層記憶：從觀察到信念，再到行動

僅有強化學習目標仍不夠。文本記憶的動作空間極大，如果完全自由生成，模型可能寫出冗長復盤、模糊判斷或不便執行的建議。MEMOPILOT 為記憶規定了三層結構。

5.1 識別層

識別層分析最近軌跡中的證據，判斷上一輪策略為何成功或失敗，并更新關于對手的假設。它關注“看到了什么”和“這些現象說明什么”，承擔診斷功能。

5.2 維護層

維護層保存跨輪信念狀態。每條模式不僅記錄內容，還標注“假設、已驗證、已確認”等狀態，附帶觀察次數、成功次數和證據來源。在固定 512 token 的記憶預算內，這一層需要主動保留有價值信息、合并重復信息并淘汰失效判斷。

5.3 指導層

指導層把上面的分析壓縮成簡潔、可執行的規則，并且只有這一部分會交給凍結玩家。換言之，玩家無需閱讀完整推理和知識庫，只接收下一局應該如何行動的策略提示。

三層設計把“面向記憶模型的內部狀態”和“面向玩家模型的控制指令”分離開來。識別層允許展開分析，維護層保證長期一致性，指導層則降低玩家的認知負擔。這也是 MEMOPILOT 超越簡單歷史拼接的重要原因：原始軌跡包含信息，但并未替玩家完成從證據到行動的轉換。

六、可控對手池與嚴格評測設置

作者構建了 32 個訓練 RPS 策略、45 個訓練 LHE 策略，以及 41 個留出策略，其中包括 32 個 RPS 和 9 個 LHE 測試對手。對手不是黑盒模型，而是由可執行自然語言指令定義，例如固定序列、根據上一步反應的規則、帶條件觸發的組合模式，以及撲克中的跟注站、特定街激進、延遲偷池和河牌詐唬等。

對手構建遵循“人類種子策略、LLM 擴寫與標準化、人工復核和試運行”的流程。訓練集與測試集按機制劃分，而非僅隨機拆分文字描述。留出對手會保留相近戰略意圖，但改變觸發條件、暴露信息的階段或規則組合，因而能夠測試記憶模型是否真的學會維護與修正假設。

主要實驗采用 Qwen2.5-14B-Instruct 作為凍結玩家和基礎記憶模型，并進一步把訓練好的 MEMOPILOT 零樣本接到 Qwen3-235B-A22B 玩家上。每種設置運行 64 次并報告均值。每局跨局記憶預算統一限制為 512 token，以保證與各類基線公平比較。

基線包括無記憶、完整歷史、人類編寫反制策略，以及 Reflexion、ExpeL、MemoryBank、AWM、ReasoningBank 等方法；還包括由 Qwen2.5-14B、DeepSeek-V3.2 和 Gemini-3.0-Flash 直接根據提示更新記憶的強模型基線。

七、主要結果：凍結玩家也能快速變強

7.1 訓練玩家上的表現

在 Qwen2.5-14B 玩家上，無記憶基線的 RPS@5 得分為 0.43，LHE@5 為 -1.36。使用同一個 Qwen2.5-14B 通過提示詞更新記憶，只達到 0.21 和 -0.23；DeepSeek-V3.2 記憶模型取得 1.64 和 -0.78。這說明更強語言模型生成的反思不等于有效的在線學習策略。

MEMOPILOT 則達到 3.28 和 2.03，相對強基線分別提升 3.10 和 2.30。尤其在德州撲克中，它把原本為負的平均收益轉為顯著正收益。

7.2 向更強玩家零樣本遷移

將訓練好的記憶模型直接接入 Qwen3-235B-A22B，不進行任何再訓練，MEMOPILOT 在 RPS 和 LHE 上仍取得 3.27 和 1.31。這說明它沒有僅僅記住 Qwen2.5-14B 的措辭習慣，而是學會生成更一般的、可被不同玩家執行的策略指導。

7.3 Elo 排名

在所有留出對手的綜合排名中，MEMOPILOT 在 LHE 上獲得 1762 Elo，在 RPS 上獲得 1590 Elo，兩項均排名第一。完整歷史輸入反而經常落后，表明更多上下文并不自動帶來更強適應能力；未經篩選的歷史會稀釋關鍵規律，并提高玩家模型的推理負擔。

值得注意的是，MEMOPILOT 的優勢會隨游戲推進迅速出現。這正是測試時學習應具備的特征：系統不是靠訓練集平均性能取勝，而是在面對一個此前未見的具體對手時，通過少量交互識別其模式并形成針對性策略。

八、從游戲遷移到真實任務

為了檢驗方法是否只適用于博弈，作者進一步在 StreamBench 上評估 CoSQL 和 DS-1000。前者要求連續處理上下文相關的文本到 SQL 查詢，后者涉及數據科學代碼生成；兩者都需要從此前任務的反饋中積累可復用經驗。

在 CoSQL 上，無記憶、完整歷史、DeepSeek-V3.2 記憶和 Qwen2.5-14B 記憶的結果分別為 69.5%、70.0%、67.5% 和 66.0%，MEMOPILOT 達到 73.5%。

在 DS-1000 上，對應結果為 50.0%、52.5%、50.0% 和 48.8%，MEMOPILOT 達到 56.3%。這兩組結果尤其有啟發性：通用大模型的提示式總結可能刪除真正重要的失敗條件，甚至讓后續表現下降；經過獎勵訓練的記憶則更傾向于保留能改變下一次行動的信息。

九、關鍵分析：什么樣的記憶真正有效

9.1 “知道對手策略”仍不等于“會反制”

作者直接把真實對手策略描述交給玩家，RPS 和 LHE 得分只有 0.75 和 -0.48；由人類專家編寫反制策略后，提升到 1.00 和 1.08；MEMOPILOT 則達到 3.28 和 2.07。

這個結果說明，事實正確性只是有用記憶的必要條件之一。玩家還需要把事實轉化為具體動作規則，并針對自身能力、環境約束和決策時機進行表達。MEMOPILOT 的訓練目標正是獎勵這種“可執行性”。

當作者讓 DeepSeek-V3.2 在不改變邏輯和數字的前提下，把 MEMOPILOT 記憶改寫成更自然的專業英語，成績從 3.28/2.07 降至 3.12/1.65。內容大體不變，表現仍發生下降，說明記憶的措辭、結構和指令強度也是智能體控制接口的一部分。

9.2 強化學習和結構化記憶缺一不可

在 LHE 上，無記憶得分為 -1.36，完整歷史為 -1.22；僅使用三層提示結構但不訓練，可提升到 -0.23。采用強化學習但允許自由格式生成，得分達到 1.04；三層結構與強化學習結合后進一步達到 2.03。

因此，結構化提示提供了有效歸納偏置，幫助模型分離診斷、狀態維護和行動指導；強化學習則讓這些內容與實際收益對齊。結構不能替代優化，優化也會受益于合適的文本狀態空間。

9.3 更長訓練時程帶來更穩定的后期收益

作者比較兩輪和五輪訓練。兩輪訓練能夠學習快速反應，但五輪訓練在十局評測中表現更穩定，并在后期持續獲得更高累計收益。這說明多輪訓練不僅讓模型學會寫一條好建議，還讓它學會何時堅持已有判斷、何時因新證據調整信念。

9.4 熱啟動記憶可以遷移，但必須允許修正

面對對手 B 時，冷啟動 MEMOPILOT 在 RPS/LHE 上得到 3.28/2.03；先與另一個對手 A 交互再切換到 B，結果為 2.56/3.26；先與 B 交互后繼續面對 B，則達到 5.22/3.58。

同一對手的已有記憶顯著提高后續表現，證明系統確實積累了針對性知識。跨對手切換后仍保持較強收益，則表明記憶模型能夠覆蓋舊信念并重新適應，而不是簡單追加不可修改的經驗條目。

9.5 單步獎勵比累計獎勵更穩定

在 LHE 中，使用長時程累計獎勵訓練只得到 0.61，而使用下一局單步獎勵達到 2.03。撲克的發牌隨機性會讓遠期回報成為高噪聲監督，單步代理獎勵雖然更局部，卻提供了更可靠的因果信號。

十、局限與失敗模式

10.1 非平穩對手會造成記憶滯后

MEMOPILOT 的主要困難來自“維護”和“修正”的矛盾。穩定環境中，保留已確認規律能減少無謂波動；但當對手頻繁改變策略時，舊記憶會成為負擔。

LHE 實驗中，面對固定對手時得分為 2.03；每五局切換一次對手降至 1.76；每兩局切換一次進一步降至 1.21；面對同樣擁有記憶、能夠主動適應的對手時為 1.25。變化速度越快，系統越難在有限證據下判斷當前異常是隨機波動還是策略已經改變。

未來可以引入顯式變化點檢測、記憶時間戳、假設衰減和多時間尺度狀態：短期層快速響應新跡象，長期層保存經過充分驗證的規律，并由門控機制決定何時覆蓋。

10.2 依賴可觀測獎勵和重復經驗

該方法需要多次相關交互以及能夠評價結果的獎勵。如果任務只有一次機會、反饋極度延遲，或者獎勵無法反映真實目標，就難以構造穩定訓練信號。現實系統還可能存在多目標沖突，例如正確率、成本、延遲和安全性必須同時權衡。

10.3 固定文本預算可能丟失長期信息

實驗將記憶限制為 512 token，這有利于公平比較和高效推理，但更長任務會要求分層壓縮、檢索和遺忘機制。僅靠單塊文本不斷改寫，可能錯誤刪除罕見卻關鍵的邊界條件。

10.4 游戲環境與開放世界仍有距離

可控對手池提供了清晰因果分析，但真實用戶、網頁、軟件工具和多智能體環境更加開放。觀察噪聲、目標漂移、工具故障和反饋偏差會同時出現。StreamBench 結果證明了一定遷移潛力，但還不足以代表長周期生產環境。

十一、研究啟示

MEMOPILOT 最重要的貢獻，不是提出了又一種記憶提示模板，而是改變了記憶系統的訓練對象和評價標準。

過去，記憶通常被當作存儲層：系統關注寫入什么、如何檢索、如何壓縮。本文則把記憶更新視為一種策略，記憶文本是影響未來行動的控制信號。評價一段記憶時，不應只問它是否忠實、清晰和完整，還要問它是否讓下游智能體在下一次交互中采取了更好的動作。

這一視角對通用智能體系統有幾方面價值。

模塊化升級
：凍結主模型，只訓練記憶副駕駛，可以低成本適配多個玩家或工具智能體。
行為對齊
：通過真實任務收益訓練記憶，減少“反思文本很漂亮、行動卻沒有改善”的問題。
持續學習
：顯式信念狀態使系統能夠累積證據、記錄置信度并修正舊結論。
可解釋控制
：文本記憶保留了可審查接口，開發者可以看到系統如何從觀察推導策略。
新的優化邊界
：模型參數之外，提示詞、記憶、工具調用計劃和上下文組織都可以成為強化學習的動作空間。

對實際工程而言，一個值得借鑒的最小方案是：將長期交互壓縮為“證據、當前假設、驗證狀態、下一步行動規則”四類信息；用下一次任務的可測結果評價更新質量；把內部分析和給執行模型的指令分離；在環境變化時顯式降低舊假設置信度。即便不立即進行完整 RL 訓練，這些原則也能改善現有記憶管線。

十二、總結

MEMOPILOT 提出了一條清晰路線：讓凍結 LLM 智能體在測試時持續變強，不一定要在線修改主模型參數，也不應只依賴人工編寫的反思規則；可以訓練一個獨立記憶模型，把每次交互轉化為經過驗證、可維護、可執行的策略狀態。

多輪 MDP 建模解決了記憶演化問題，下一局代理獎勵和按輪 GRPO 提供了低方差信用分配，三層記憶結構則把診斷、信念維護與行動指導分開。其在 RPS、LHE、CoSQL 和 DS-1000 上的結果共同說明：真正有效的智能體記憶，不只是過去發生了什么的摘要，而是面向未來決策、能夠隨著證據持續修正的控制策略。

論文地址：https://arxiv.org/abs/2606.08656

0人收藏

專題

ICML：國際機器學習會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章