• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    本文作者: 陳淑瑜   2026-06-15 14:46 專題:ICML:國際機器學習會議
    導語:不更新負責行動的玩家模型,而是訓練一個獨立的“記憶副駕駛”,讓記憶更新本身成為可通過強化學習優化的策略。

    來源:公眾號“專知”

    原文鏈接:https://mp.weixin.qq.com/s/wKPyQKCqzNw9a2FyhcEAxg?scene=1&click_id=26


    大語言模型智能體進入真實環境后,常常需要連續完成一組相關任務:與同一用戶長期協作、反復調用工具、持續探索一個環境,或者多輪面對具有穩定行為模式的對手。此時,真正重要的不只是模型能否完成單次任務,而是它能否從已經發生的交互中吸取經驗,在后續任務中做得更好。這種能力通常被稱為測試時學習(Test-Time Learning,TTL)。

    一種自然方案是為智能體維護顯式文本記憶:每次交互結束后總結經驗,再把記憶交給下一輪智能體。然而,當前許多記憶系統仍依賴人工設計的反思提示詞或更新規則。它們能夠生成“看起來合理”的總結,卻不保證這些總結真的有助于下游決策,更難在多輪交互中穩定完成證據積累、假設修正和策略更新。

    來自北京大學、清華大學、智譜 AI 等機構的研究者在 ICML 2026 論文《From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory》中提出 MEMOPILOT。其核心思想非常直接:不更新負責行動的玩家模型,而是訓練一個獨立的“記憶副駕駛”,讓記憶更新本身成為可通過強化學習優化的策略。

    MEMOPILOT 將跨局記憶演化建模為多輪馬爾可夫決策過程,并采用多輪 GRPO 訓練。每次記憶更新不再只追求語言上的完整或自然,而要對下一局的真實收益負責。實驗表明,在凍結玩家模型的條件下,MEMOPILOT 在石頭剪刀布和限注德州撲克中均取得最高 Elo,并能零樣本遷移到更強的 Qwen3-235B 玩家;在 CoSQL 和 DS-1000 兩個真實任務上也分別達到 73.5% 和 56.3%,說明這種方法學習到的不只是游戲技巧,而是一種更一般的經驗組織與行動指導能力。

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶
    論文:From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory
    作者:Yishuo Cai、Xingyu Guo、Xuancheng Huang、Jinhua Du、Can Huang、Wenxuan Huang、Wenhan Ma、Yuyang Hu、Aohan Zeng、Jie Tang、Xu Sun
    會議:ICML 2026
    論文地址:https://arxiv.org/abs/2606.08656

    一、問題背景:智能體為何需要“可訓練的記憶”

    測試時學習關注的是這樣一種在線過程:任務或交互按時間順序逐個到來,智能體無法提前看到未來,只能利用過去的經驗改善之后的表現。它不同于傳統訓練,因為部署階段通常不方便頻繁更新模型參數;也不同于普通上下文學習,因為交互可能很長,原始歷史會迅速超過上下文預算,并混入大量偶然、重復或無關信息。

    顯式文本記憶因此成為一個很有吸引力的接口。它可以壓縮歷史、保留關鍵規律,并以自然語言形式向任意凍結模型提供指導。Reflexion、ExpeL、MemoryBank、Dynamic Cheatsheet 和 ReasoningBank 等工作已經證明,反思、經驗提煉和動態記憶可以提升智能體表現。

    但“生成一段記憶”和“生成能提高未來獎勵的記憶”并不是同一件事。論文指出,手工提示驅動的記憶更新面臨三個根本問題。

    第一,優化目標錯位。提示詞通常要求模型總結錯誤、提取規律或給出建議,卻沒有直接約束這些文本是否能讓下一次行動獲得更高收益。

    第二,信用分配困難。某條記憶可能在下一輪立即奏效,也可能因為環境隨機性暫時失敗。若只看整段交互的累計回報,很難判斷究竟是哪一次記憶更新產生了作用。

    第三,多輪演化能力不足。真正有用的記憶不是一次性總結,而應經歷“提出假設、收集證據、驗證或否定、修正策略”的循環。僅靠單輪反思,很容易把偶然事件誤判為穩定規律,或者在新證據出現后仍固守舊結論。

    因此,論文把問題重新表述為:能否直接訓練一個記憶更新策略,使其產生的文本通過凍結玩家的后續行為,最大化跨多輪交互的累計收益?

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    二、核心框架:玩家不變,記憶持續進化

    MEMOPILOT 由兩個角色構成。

    • 玩家模型

      負責在當前環境中采取動作。它的參數始終凍結,而且跨局無狀態,只能看到當前局環境和記憶提供的行動建議。
    • 記憶模型

      讀取最新交互軌跡與上一輪記憶,生成新的記憶狀態。它是唯一需要訓練的模塊。

    設第 \(t\) 局交互軌跡為 \(e_t\),收益為 \(r_t\),上一輪記憶為 \(m_{t-1}\),記憶模型為 \(G_\theta\),則新記憶為:

    m_t = G_theta(e_t, m_{t-1})

    隨后,凍結玩家 \(\pi\) 在第 \(t+1\) 局中使用 \(m_t\) 進行決策。也就是說,第 \(t\) 次記憶更新的質量,不由語言模型自評,而由它能否改善下一局表現來檢驗。

    這一設計有兩個重要意義。其一,記憶模塊是即插即用的,可以與不同規模、不同來源的玩家模型組合。其二,訓練成本集中在較小的記憶更新模型上,無須對昂貴的主模型進行在線微調,也避免參數更新破壞玩家原有能力。

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    論文選擇多輪石頭剪刀布(RPS)和限注德州撲克(LHE)作為主要試驗場,并不是為了單純證明模型“會玩游戲”。這兩類環境同時滿足三個測試時學習條件:對手存在可利用的穩定結構;行為可以用明確規則控制和復現;每局都有清晰獎勵,可用于強化學習。德州撲克還包含不完全信息和發牌隨機性,可以檢驗模型能否區分真實策略信號與偶然結果。

    三、把記憶更新建模為多輪決策過程

    作者將記憶生成形式化為馬爾可夫決策過程 \(M=(S,A,P,R)\)。

    在第 \(t\) 輪,狀態為 s_t = (e_t, m_{t-1}),即剛結束的交互軌跡與此前記憶;動作是記憶模型生成的新文本 \(m_t\);狀態轉移由凍結玩家依據新記憶與環境、對手進行下一局交互而產生;獎勵則是游戲結果。

    一段訓練 episode 包含連續 \(T\) 局游戲。第一局沒有學習后的指導,主要用于探索;從第一局結束后開始,記憶模型不斷更新記憶,玩家在后續局中使用它。理論目標是最大化所有記憶指導局的累計收益:

    R(tau) = sum(r_(t+1)), t = 1 ... T-1

    這個表述抓住了一個容易被忽略的事實:記憶不是被動數據庫,而是會改變未來行為、未來觀察乃至未來可獲得證據的決策變量。例如,記憶建議玩家采取更激進的試探動作,可能短期損失籌碼,卻暴露對手面對加注時的規律。因此,記憶更新天然具有序列決策屬性。

    不過,直接使用長時程累計回報訓練會帶來嚴重噪聲。特別是在撲克中,未來收益同時受到記憶質量、發牌結果、位置和對手動作影響。一條優秀記憶可能因為下一局拿到差牌而得到低分;更遠期獎勵與當前記憶之間的因果關系則更加模糊。

    四、多輪 GRPO:讓每次記憶為下一局負責

    為解決信用分配和高方差問題,MEMOPILOT 采用多輪 Group Relative Policy Optimization(GRPO),并對標準形式做了兩項關鍵改造。

    4.1 下一局獎勵作為單步代理信號

    對同一對手策略,舊策略模型并行采樣 \(G\) 條多輪軌跡。第 \(i\) 條軌跡在第 \(t\) 次生成記憶 \(m_{i,t}\) 后,作者把下一局收益直接作為該次記憶更新的代理回報:

    R_(i,t) = r_(i,t+1)

    這樣,第 \(t\) 次記憶負責解釋和改進第 \(t+1\) 局,而不是承擔后面所有隨機事件的結果。它雖然縮短了信用分配范圍,卻顯著降低了方差,并使訓練信號更貼近“這段建議是否立即可執行、是否確實有效”。

    4.2 按輪次進行組內相對優勢估計

    對于相同對手和相同輪次,作者比較不同并行 rollout 的下一局收益,計算組內中心化優勢:

    A_(i,t) = R_(i,t) - mean({R_(i,t)} from i=1...G)

    該優勢值被應用到同一次記憶生成的所有 token。最終優化維度從普通 GRPO 的“組、token”擴展為“組、輪次、token”。不同輪次的記憶更新獲得相對獨立的訓練信號,避免后期上下文和環境隨機性污染前期更新。

    論文沒有除以組內標準差。作者遵循相關研究的經驗,保留獎勵尺度差異,以避免在方差很小的組中放大噪聲。訓練時仍使用裁剪重要性比率,以限制新舊策略偏移。

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    這種方法可以理解為一種“短反饋訓練、長過程演化”:每一步用低方差的下一局獎勵學習,但記憶狀態本身跨輪保留,因此模型仍能學會逐步積累和修正證據。

    五、三層記憶:從觀察到信念,再到行動

    僅有強化學習目標仍不夠。文本記憶的動作空間極大,如果完全自由生成,模型可能寫出冗長復盤、模糊判斷或不便執行的建議。MEMOPILOT 為記憶規定了三層結構。

    5.1 識別層

    識別層分析最近軌跡中的證據,判斷上一輪策略為何成功或失敗,并更新關于對手的假設。它關注“看到了什么”和“這些現象說明什么”,承擔診斷功能。

    5.2 維護層

    維護層保存跨輪信念狀態。每條模式不僅記錄內容,還標注“假設、已驗證、已確認”等狀態,附帶觀察次數、成功次數和證據來源。在固定 512 token 的記憶預算內,這一層需要主動保留有價值信息、合并重復信息并淘汰失效判斷。

    5.3 指導層

    指導層把上面的分析壓縮成簡潔、可執行的規則,并且只有這一部分會交給凍結玩家。換言之,玩家無需閱讀完整推理和知識庫,只接收下一局應該如何行動的策略提示。

    三層設計把“面向記憶模型的內部狀態”和“面向玩家模型的控制指令”分離開來。識別層允許展開分析,維護層保證長期一致性,指導層則降低玩家的認知負擔。這也是 MEMOPILOT 超越簡單歷史拼接的重要原因:原始軌跡包含信息,但并未替玩家完成從證據到行動的轉換。

    六、可控對手池與嚴格評測設置

    作者構建了 32 個訓練 RPS 策略、45 個訓練 LHE 策略,以及 41 個留出策略,其中包括 32 個 RPS 和 9 個 LHE 測試對手。對手不是黑盒模型,而是由可執行自然語言指令定義,例如固定序列、根據上一步反應的規則、帶條件觸發的組合模式,以及撲克中的跟注站、特定街激進、延遲偷池和河牌詐唬等。

    對手構建遵循“人類種子策略、LLM 擴寫與標準化、人工復核和試運行”的流程。訓練集與測試集按機制劃分,而非僅隨機拆分文字描述。留出對手會保留相近戰略意圖,但改變觸發條件、暴露信息的階段或規則組合,因而能夠測試記憶模型是否真的學會維護與修正假設。

    主要實驗采用 Qwen2.5-14B-Instruct 作為凍結玩家和基礎記憶模型,并進一步把訓練好的 MEMOPILOT 零樣本接到 Qwen3-235B-A22B 玩家上。每種設置運行 64 次并報告均值。每局跨局記憶預算統一限制為 512 token,以保證與各類基線公平比較。

    基線包括無記憶、完整歷史、人類編寫反制策略,以及 Reflexion、ExpeL、MemoryBank、AWM、ReasoningBank 等方法;還包括由 Qwen2.5-14B、DeepSeek-V3.2 和 Gemini-3.0-Flash 直接根據提示更新記憶的強模型基線。

    七、主要結果:凍結玩家也能快速變強

    7.1 訓練玩家上的表現

    在 Qwen2.5-14B 玩家上,無記憶基線的 RPS@5 得分為 0.43,LHE@5 為 -1.36。使用同一個 Qwen2.5-14B 通過提示詞更新記憶,只達到 0.21 和 -0.23;DeepSeek-V3.2 記憶模型取得 1.64 和 -0.78。這說明更強語言模型生成的反思不等于有效的在線學習策略。

    MEMOPILOT 則達到 3.28 和 2.03,相對強基線分別提升 3.10 和 2.30。尤其在德州撲克中,它把原本為負的平均收益轉為顯著正收益。

    7.2 向更強玩家零樣本遷移

    將訓練好的記憶模型直接接入 Qwen3-235B-A22B,不進行任何再訓練,MEMOPILOT 在 RPS 和 LHE 上仍取得 3.27 和 1.31。這說明它沒有僅僅記住 Qwen2.5-14B 的措辭習慣,而是學會生成更一般的、可被不同玩家執行的策略指導。

    7.3 Elo 排名

    在所有留出對手的綜合排名中,MEMOPILOT 在 LHE 上獲得 1762 Elo,在 RPS 上獲得 1590 Elo,兩項均排名第一。完整歷史輸入反而經常落后,表明更多上下文并不自動帶來更強適應能力;未經篩選的歷史會稀釋關鍵規律,并提高玩家模型的推理負擔。

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    值得注意的是,MEMOPILOT 的優勢會隨游戲推進迅速出現。這正是測試時學習應具備的特征:系統不是靠訓練集平均性能取勝,而是在面對一個此前未見的具體對手時,通過少量交互識別其模式并形成針對性策略。

    八、從游戲遷移到真實任務

    為了檢驗方法是否只適用于博弈,作者進一步在 StreamBench 上評估 CoSQL 和 DS-1000。前者要求連續處理上下文相關的文本到 SQL 查詢,后者涉及數據科學代碼生成;兩者都需要從此前任務的反饋中積累可復用經驗。

    在 CoSQL 上,無記憶、完整歷史、DeepSeek-V3.2 記憶和 Qwen2.5-14B 記憶的結果分別為 69.5%、70.0%、67.5% 和 66.0%,MEMOPILOT 達到 73.5%

    在 DS-1000 上,對應結果為 50.0%、52.5%、50.0% 和 48.8%,MEMOPILOT 達到 56.3%。這兩組結果尤其有啟發性:通用大模型的提示式總結可能刪除真正重要的失敗條件,甚至讓后續表現下降;經過獎勵訓練的記憶則更傾向于保留能改變下一次行動的信息。

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    九、關鍵分析:什么樣的記憶真正有效

    9.1 “知道對手策略”仍不等于“會反制”

    作者直接把真實對手策略描述交給玩家,RPS 和 LHE 得分只有 0.75 和 -0.48;由人類專家編寫反制策略后,提升到 1.00 和 1.08;MEMOPILOT 則達到 3.28 和 2.07。

    這個結果說明,事實正確性只是有用記憶的必要條件之一。玩家還需要把事實轉化為具體動作規則,并針對自身能力、環境約束和決策時機進行表達。MEMOPILOT 的訓練目標正是獎勵這種“可執行性”。

    當作者讓 DeepSeek-V3.2 在不改變邏輯和數字的前提下,把 MEMOPILOT 記憶改寫成更自然的專業英語,成績從 3.28/2.07 降至 3.12/1.65。內容大體不變,表現仍發生下降,說明記憶的措辭、結構和指令強度也是智能體控制接口的一部分。

    9.2 強化學習和結構化記憶缺一不可

    在 LHE 上,無記憶得分為 -1.36,完整歷史為 -1.22;僅使用三層提示結構但不訓練,可提升到 -0.23。采用強化學習但允許自由格式生成,得分達到 1.04;三層結構與強化學習結合后進一步達到 2.03

    因此,結構化提示提供了有效歸納偏置,幫助模型分離診斷、狀態維護和行動指導;強化學習則讓這些內容與實際收益對齊。結構不能替代優化,優化也會受益于合適的文本狀態空間。

    9.3 更長訓練時程帶來更穩定的后期收益

    作者比較兩輪和五輪訓練。兩輪訓練能夠學習快速反應,但五輪訓練在十局評測中表現更穩定,并在后期持續獲得更高累計收益。這說明多輪訓練不僅讓模型學會寫一條好建議,還讓它學會何時堅持已有判斷、何時因新證據調整信念。

    9.4 熱啟動記憶可以遷移,但必須允許修正

    面對對手 B 時,冷啟動 MEMOPILOT 在 RPS/LHE 上得到 3.28/2.03;先與另一個對手 A 交互再切換到 B,結果為 2.56/3.26;先與 B 交互后繼續面對 B,則達到 5.22/3.58。

    同一對手的已有記憶顯著提高后續表現,證明系統確實積累了針對性知識。跨對手切換后仍保持較強收益,則表明記憶模型能夠覆蓋舊信念并重新適應,而不是簡單追加不可修改的經驗條目。

    9.5 單步獎勵比累計獎勵更穩定

    在 LHE 中,使用長時程累計獎勵訓練只得到 0.61,而使用下一局單步獎勵達到 2.03。撲克的發牌隨機性會讓遠期回報成為高噪聲監督,單步代理獎勵雖然更局部,卻提供了更可靠的因果信號。

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    十、局限與失敗模式

    10.1 非平穩對手會造成記憶滯后

    MEMOPILOT 的主要困難來自“維護”和“修正”的矛盾。穩定環境中,保留已確認規律能減少無謂波動;但當對手頻繁改變策略時,舊記憶會成為負擔。

    LHE 實驗中,面對固定對手時得分為 2.03;每五局切換一次對手降至 1.76;每兩局切換一次進一步降至 1.21;面對同樣擁有記憶、能夠主動適應的對手時為 1.25。變化速度越快,系統越難在有限證據下判斷當前異常是隨機波動還是策略已經改變。

    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    未來可以引入顯式變化點檢測、記憶時間戳、假設衰減和多時間尺度狀態:短期層快速響應新跡象,長期層保存經過充分驗證的規律,并由門控機制決定何時覆蓋。

    10.2 依賴可觀測獎勵和重復經驗

    該方法需要多次相關交互以及能夠評價結果的獎勵。如果任務只有一次機會、反饋極度延遲,或者獎勵無法反映真實目標,就難以構造穩定訓練信號。現實系統還可能存在多目標沖突,例如正確率、成本、延遲和安全性必須同時權衡。

    10.3 固定文本預算可能丟失長期信息

    實驗將記憶限制為 512 token,這有利于公平比較和高效推理,但更長任務會要求分層壓縮、檢索和遺忘機制。僅靠單塊文本不斷改寫,可能錯誤刪除罕見卻關鍵的邊界條件。

    10.4 游戲環境與開放世界仍有距離

    可控對手池提供了清晰因果分析,但真實用戶、網頁、軟件工具和多智能體環境更加開放。觀察噪聲、目標漂移、工具故障和反饋偏差會同時出現。StreamBench 結果證明了一定遷移潛力,但還不足以代表長周期生產環境。

    十一、研究啟示

    MEMOPILOT 最重要的貢獻,不是提出了又一種記憶提示模板,而是改變了記憶系統的訓練對象和評價標準。

    過去,記憶通常被當作存儲層:系統關注寫入什么、如何檢索、如何壓縮。本文則把記憶更新視為一種策略,記憶文本是影響未來行動的控制信號。評價一段記憶時,不應只問它是否忠實、清晰和完整,還要問它是否讓下游智能體在下一次交互中采取了更好的動作。

    這一視角對通用智能體系統有幾方面價值。

    • 模塊化升級

      :凍結主模型,只訓練記憶副駕駛,可以低成本適配多個玩家或工具智能體。
    • 行為對齊

      :通過真實任務收益訓練記憶,減少“反思文本很漂亮、行動卻沒有改善”的問題。
    • 持續學習

      :顯式信念狀態使系統能夠累積證據、記錄置信度并修正舊結論。
    • 可解釋控制

      :文本記憶保留了可審查接口,開發者可以看到系統如何從觀察推導策略。
    • 新的優化邊界

      :模型參數之外,提示詞、記憶、工具調用計劃和上下文組織都可以成為強化學習的動作空間。

    對實際工程而言,一個值得借鑒的最小方案是:將長期交互壓縮為“證據、當前假設、驗證狀態、下一步行動規則”四類信息;用下一次任務的可測結果評價更新質量;把內部分析和給執行模型的指令分離;在環境變化時顯式降低舊假設置信度。即便不立即進行完整 RL 訓練,這些原則也能改善現有記憶管線。

    十二、總結

    MEMOPILOT 提出了一條清晰路線:讓凍結 LLM 智能體在測試時持續變強,不一定要在線修改主模型參數,也不應只依賴人工編寫的反思規則;可以訓練一個獨立記憶模型,把每次交互轉化為經過驗證、可維護、可執行的策略狀態。

    多輪 MDP 建模解決了記憶演化問題,下一局代理獎勵和按輪 GRPO 提供了低方差信用分配,三層記憶結構則把診斷、信念維護與行動指導分開。其在 RPS、LHE、CoSQL 和 DS-1000 上的結果共同說明:真正有效的智能體記憶,不只是過去發生了什么的摘要,而是面向未來決策、能夠隨著證據持續修正的控制策略。

    論文地址:https://arxiv.org/abs/2606.08656


    ICML 2026|MEMOPILOT:用強化學習訓練會進化的智能體記憶

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产亚洲精品合集久久久久| 久久亚洲专区| 国产精品黄色一区二区三区 | 无码AV无码免费一区二区| 国产高清A片| 欧美日韩第一页| 亚洲AV永久综合在线观看红杏 | 人妻无码人妻有码不卡| 亚洲成人大香蕉| 国产精品一品二区三四区| 欧日韩无套内射变态| 熟女丝袜潮喷内裤视频网站| 影音先锋女人av噜噜色| sihu国产午夜精品一区二区三区 | 无人区码一码二码w358cc| 亚洲s色大片在线观看一区| 无码一区二区三区免费| 一本色道久久—综合亚洲| 亚洲色av天天天天天天| 顶级嫩模高档酒店援交视频| 国产伦码精品一区二区| 日韩区二区三区中文字幕| 91视频播放| 人人久精品综合777人人精品综合777| 夜夜高潮夜夜爽国产伦精品| 色吊丝一区二区中文字幕| 久久99精品国产麻豆婷婷洗澡| 一卡二卡三| L日韩欧美看国产日韩欧美| 亚洲av永久无码一区二区三区| 亚洲一区二区三区自拍高清 | 狠狠干影院| 亚洲AV成人无码久久精品色欲| 国产国产人免费人成免费| 午夜亚洲www湿好爽| 尤物视频官网| 亚洲成色精品一二三区| 伊人久久大香线蕉av五月天| 国产裸体美女视频全黄扒开| 日日夜夜添日日夜夜操| 日韩欧美第一区二区三区|