<sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"><tfoot id="pqc61"></tfoot></sub><sub id="pqc61"></sub>

在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码

<wbr id="6z4yq"><menu id="6z4yq"></menu></wbr>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能正文

發(fā)私信給鄭佳美

發(fā)送

0

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

本文作者：鄭佳美

2025-02-27 14:22

導(dǎo)語(yǔ)：在月亮的暗面，閃閃發(fā)光。

2025 年 1 月 20 日 Kimi k1.5 正式發(fā)布，伴隨著技術(shù)報(bào)告的公布，有網(wǎng)友表示：“這應(yīng)該是全球范圍內(nèi)，除 OpenAI 之外的公司首次實(shí)現(xiàn) o1 正式版的多模態(tài)推理性能了吧！”

一時(shí)間，Kimi k1.5 成了話題王者。

但在一個(gè)月后的 2 月 24 日，X 上出現(xiàn)了一篇關(guān)于 Kimi k1.5 的技術(shù)爆料帖，博主直言 k1.5 所用到的強(qiáng)化學(xué)習(xí)算法，其實(shí)是借鑒了自己在 24 年 5 月提出的一種名為 SPPO 的技術(shù)。

消息一出，瞬間吸引了數(shù)萬(wàn)人關(guān)注。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

Kimi k1.5 背后的 SPPO 技術(shù)

在這則爆料中，博主 Yue Wu 先是對(duì) SPPO 進(jìn)行了簡(jiǎn)單解釋，并且附上了相關(guān)論文（https://arxiv.org/abs/2405.00675），簡(jiǎn)單來(lái)說(shuō)，SPPO是一種自博弈算法，最初的動(dòng)機(jī)來(lái)源于刻畫廣泛意義上的人類偏好，并且使用了如下圖所示的平方損失函數(shù)：

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

值得一提的是，點(diǎn)開論文鏈接，你會(huì)發(fā)現(xiàn)原來(lái) Yue Wu 和 Zhiqing Sun 同為這篇文章的第一作者。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

緊接著，他開始對(duì) SPPO 技術(shù)進(jìn)行解析：

通過(guò)迭代求解上式中的 theta_t，我們可以得到一個(gè)與人類偏好對(duì)齊良好的語(yǔ)言模型。SPPO 使用勝率（紅色部分）作為獎(jiǎng)勵(lì)，并用常數(shù)近似基線（藍(lán)色部分）。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

讓我們感興趣的是，我們發(fā)現(xiàn)它與 RLHF 目標(biāo)的策略梯度有著深層的聯(lián)系：如果我們直接用普通的策略梯度優(yōu)化 RLHF （人類反饋強(qiáng)化學(xué)習(xí)）目標(biāo)會(huì)怎樣？根據(jù)策略梯度定理，策略梯度實(shí)際上也具有平方損失形式（藍(lán)色項(xiàng)是策略梯度中的基線）：

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

從數(shù)學(xué)上，我們證明了 SPPO 的平方損失等價(jià)于普通策略梯度的一種半在線變體：

SPPO 中的勝率充當(dāng)獎(jiǎng)勵(lì)函數(shù)（紅色部分）。

分區(qū)函數(shù)項(xiàng)自然地成為（軟）值函數(shù)（藍(lán)色部分）。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

那么這到底意味著什么呢？

標(biāo)準(zhǔn)策略梯度（PPO、GRPO、REINFORCE）在每一步都收集遵循當(dāng)前策略的樣本。

SPPO 在每次迭代開始時(shí)只采樣一次，然后通過(guò)平方損失進(jìn)行優(yōu)化。

這使得 SPPO 成為一種輕量級(jí)的 RLHF 方法——無(wú)需即時(shí)生成！

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

上述分析揭示了大型語(yǔ)言模型（LLM）后訓(xùn)練階段一個(gè)有趣的發(fā)展趨勢(shì)：

離線 DPO（IPO、KTO 等）取代 RLHF（獎(jiǎng)勵(lì)模型 + 強(qiáng)化學(xué)習(xí)）

迭代 DPO、SPPO 等方法將離線方法轉(zhuǎn)化為在線對(duì)齊方法

更加精細(xì)的迭代 → 回歸到在線強(qiáng)化學(xué)習(xí)

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

鑒于 GRPO（Deepseek-R1）和平方損失（Kimi k1.5）的成功，端到端強(qiáng)化學(xué)習(xí)的強(qiáng)大作用愈發(fā)凸顯，或許在大型語(yǔ)言模型（LLM）后訓(xùn)練階段無(wú)需額外技巧——價(jià)值函數(shù)、廣義優(yōu)勢(shì)估計(jì)（GAE），甚至梯度裁剪都無(wú)需使用。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

另一個(gè)簡(jiǎn)單但有趣的發(fā)現(xiàn)是，他們發(fā)現(xiàn) SPPO 暗中在詞匯級(jí)別優(yōu)化最優(yōu)最大熵策略。其平方損失隱含地最小化了學(xué)習(xí)到的策略與最優(yōu)詞匯級(jí)別策略之間的 KL 散度。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

在我們后續(xù)的研究 GPO 中，我們直接最小化相對(duì)獎(jiǎng)勵(lì)與對(duì)數(shù)比率之間的平方損失。這兩項(xiàng)工作中的平方損失等價(jià)于策略梯度，但它是以迭代的方式進(jìn)行的。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

SPPO 技術(shù)背后的科研大牛

除了提出助力 Kimi k1.5 大獲成功的 SPPO 技術(shù)外，Wu Yue 也是一個(gè)學(xué)術(shù)背景很強(qiáng)的科研大牛。他本科期間師從北京大學(xué)的王立威教授，博士期間師從加利福尼亞大學(xué)洛杉磯分校的顧全全教授，目前以博士后研究員的身份在普林斯頓大學(xué)人工智能實(shí)驗(yàn)室繼續(xù)著自己的科研之路。推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

除此之外，2023 年至今他一共參與發(fā)布了 9 篇 Paper，其中 3 篇均為第一作者。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

強(qiáng)大的學(xué)術(shù)背景之外，Wu Yue 的實(shí)習(xí)經(jīng)歷也非常加分。2022 年至 2024 年，他分別在 NEC 美研院、字節(jié)美國(guó) AI lab和 Meta 工作實(shí)習(xí)。在 NEC 美研院期間，Wu Yue 從事個(gè)性化聯(lián)邦學(xué)習(xí)研究，并開發(fā)了一種基于混合模型的方法，該方法被 ICML 2023 接受發(fā)表；在字節(jié)美國(guó) AI lab 時(shí)，他專注于藥物發(fā)現(xiàn)領(lǐng)域的多構(gòu)象生成，將分子動(dòng)力學(xué)的物理先驗(yàn)納入基于擴(kuò)散的生成模型，相關(guān)成果被 ICML 2024 接受；來(lái)到 Meta 后，Wu Yue 又致力于詞匯級(jí)別獎(jiǎng)勵(lì)建模和新架構(gòu)設(shè)計(jì)，用于一般人類偏好和一般偏好優(yōu)化，為生成式人工智能的發(fā)展做出了貢獻(xiàn)。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù) 雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))還了解到，與他同為第一作者的 Zhiqing Sun ，目前已經(jīng)從 CMU 畢業(yè)，并在今年 2 月加入 OpenAI。

推特?zé)崽簁1.5 很牛，因?yàn)榻梃b了 UCLA 與 CMU 合作團(tuán)隊(duì)的這項(xiàng)技術(shù)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

AI 谷歌智能手機(jī) 摩托羅拉 Google Glass 螞蟻金服黑科技 Android游戲谷歌眼鏡 yahoo 藍(lán)牙

為了您的賬戶安全，請(qǐng)驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請(qǐng)驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號(hào)信息

您的賬號(hào)已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說(shuō)

主站蜘蛛池模板：伊人久久大香线蕉AV网禁呦| 久久99精品久久久久久久清纯| 奇米久久| 蜜芽久久人人超碰爱香蕉| 尹人香蕉久久99天天拍| 欧美精品综合视频一区二区| 一区二区三区自拍偷拍视频| 茄子av| 国产欧美一区二区精品性色超碰 | 欧美亚洲一区二区三区在线| 免费观看日本污污ww网站| 午夜亚洲国产理论秋霞| www夜片内射视频日韩精品成人| 毛葺葺老太做受视频| 伊人久久久| 足交av| 国产成人久久777777| 好硬好湿好爽再深一点动态图视频| 欧美性猛交ⅹxxx乱大交妖精| 首页 - 91n| 神马午夜久久精品人妻| 影音先锋2020色资源网| 亚洲AV伊人久久综合密臀性色| 草草浮力影院| 欧美福利精品| 国产成人99| 乱人伦中文字幕| 麻豆精品一区二区三区蜜桃| 伊人精品久久久大香线蕉| 亚洲AⅤ永久无码精品毛片| 少妇熟女久久综合网色欲| 亚洲精品综合久久国产二区| 一区二区av| 无码福利日韩神码福利片| 国产成人精品午夜2022| 亚洲嫩模一区二区三区| 欧美国产日韩久久mv| 国产亚洲中文字幕一区二区| 无码人妻aⅴ一区二区三区蜜桃| 亚洲综合图片区| 国产360激情盗摄全集|

<pre id="nuh1c"><big id="nuh1c"></big></pre>

<tfoot id="nuh1c"><center id="nuh1c"></center></tfoot>

^{<tr id="nuh1c"></tr>}