• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    業(yè)界 正文
    發(fā)私信給梁丙鑒
    發(fā)送

    0

    DeepSeek-R1 登上《Nature》封面:只花了 200 萬(wàn),沒(méi)蒸餾 OpenAI

    本文作者: 梁丙鑒   2025-09-18 14:57
    導(dǎo)語(yǔ):DeepSeek-R1 又開(kāi)先例,成為首個(gè)登上《Nature》封面的中國(guó)大模型。

    雷峰網(wǎng)訊 DeepSeek-R1 又開(kāi)先例,成為首個(gè)登上《Nature》封面的中國(guó)大模型。

    2025 年春節(jié),DeepSeek-R1 橫空出世,因其極低的訓(xùn)練成本引發(fā)病毒式傳播。八個(gè)月過(guò)去,這一成果帶著 Nature 的金字招牌再次回到公眾視野中央,只為一件事:技術(shù)透明。

    這篇名為 DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的《Nature》 封面論文由創(chuàng)始人梁文鋒擔(dān)任通訊作者。文中首次確認(rèn)了此前流傳的DeepSeek R1 訓(xùn)練成本,約 29.4 萬(wàn)美元,折合人民幣約 208 萬(wàn),并進(jìn)一步披露了模型訓(xùn)練中采用的數(shù)據(jù)類(lèi)型、強(qiáng)化學(xué)習(xí)方案等技術(shù)細(xì)節(jié)。

    在揭開(kāi)這一里程碑式大模型的面紗之外,這篇論文更大的意義,是 DeepSeek-R1 作為全球首個(gè)經(jīng)歷了同行評(píng)審的大語(yǔ)言模型,將大模型研究推向了更透明、可重復(fù)的方向。

    此前業(yè)內(nèi)通行的做法,是科技公司在自家官網(wǎng)、論文預(yù)印本網(wǎng)站 arXiv或知名技術(shù)論壇上發(fā)布突破性成果及基準(zhǔn)測(cè)試分?jǐn)?shù),大部分模型 API 隨后即向公眾開(kāi)放。這一過(guò)程繞開(kāi)了傳統(tǒng)學(xué)術(shù)評(píng)價(jià)體系中的同行評(píng)審環(huán)節(jié),而 DeepSeek 團(tuán)隊(duì)則主動(dòng)接受了這一來(lái)自學(xué)術(shù)界的審視。

    根據(jù) 《Nature》公布的補(bǔ)充信息顯示,評(píng)審意見(jiàn)主要集中在實(shí)驗(yàn)評(píng)估、模型安全性和倫理風(fēng)險(xiǎn)等方面,要求補(bǔ)充 OOD(分布外)測(cè)試、中間階段性能分析、誤用討論等工作。正是針對(duì)上述同行評(píng)審意見(jiàn),DeepSeek 團(tuán)隊(duì)才增加了對(duì)數(shù)據(jù)類(lèi)型等訓(xùn)練細(xì)節(jié)的披露,并進(jìn)一步證明了成果的安全性。

    “這是一個(gè)非常值得歡迎的先例,“論文評(píng)審之一,Hugging Face 機(jī)器學(xué)習(xí)工程師 Lewis Tunstall 表示,”如果我們沒(méi)有公開(kāi)分享這一過(guò)程大部分內(nèi)容的規(guī)范,那么將很難評(píng)估這些系統(tǒng)是否構(gòu)成風(fēng)險(xiǎn)。“


    公開(kāi)訓(xùn)練細(xì)節(jié),回應(yīng)“蒸餾”質(zhì)疑

    那么在最新版本的論文中, DeepSeek 團(tuán)隊(duì)都補(bǔ)充了 R1 的哪些訓(xùn)練細(xì)節(jié)呢?

    首先是訓(xùn)練成本,此前曾震動(dòng)華爾街的 29.4 萬(wàn)美元數(shù)據(jù)終于得到證實(shí)。

    DeepSeek-R1 登上《Nature》封面:只花了 200 萬(wàn),沒(méi)蒸餾 OpenAI

    據(jù)補(bǔ)充材料介紹, DeepSeek-R1 的研究工作分為三個(gè)階段。

    第一階段使用 A100 GPU 對(duì) 30B 參數(shù)的小模型進(jìn)行實(shí)驗(yàn)預(yù)研,因結(jié)果表現(xiàn)良好,使團(tuán)隊(duì)有信心將規(guī)模擴(kuò)大至 660B 參數(shù)的 R1-Zero 和 R1。

    第二階段的成果是 DeepSeek-R1-Zero,研究團(tuán)隊(duì)動(dòng)用了 512 塊 H800 GPU,耗時(shí)約 198 小時(shí)。

    最后是 DeepSeek-R1,仍然采用 512 塊 H800 GPU 的配置,但僅用時(shí) 80 小時(shí)便宣告完成。

    在訓(xùn)練數(shù)據(jù)構(gòu)成方面, DeepSeek-R1 采用了數(shù)學(xué)、編程、STEM、邏輯四大類(lèi)題目。

    其中數(shù)學(xué)數(shù)據(jù)集由 2.6 萬(wàn)道定量推理題構(gòu)成,涵蓋數(shù)學(xué)考試和競(jìng)賽題目,模型需逐步推理并給出最終正確答案。

    編程數(shù)據(jù)集由 1.7 萬(wàn)道算法競(jìng)賽題與 8 千道 Bug修復(fù)題構(gòu)成,其中后者全部來(lái)自真實(shí)的GitHub issue,數(shù)據(jù)集提供問(wèn)題描述、含缺陷源碼與部分失敗的單元測(cè)試,要求模型定位并修復(fù)缺陷,使代碼通過(guò)全部測(cè)試。

    STEM 數(shù)據(jù)集由 2.2 萬(wàn)道選擇題構(gòu)成,覆蓋物理、化學(xué)、生物等學(xué)科,模型需選出最科學(xué)準(zhǔn)確的答案。

    邏輯數(shù)據(jù)集由真實(shí)問(wèn)題和合成問(wèn)題共 1.5 萬(wàn)題構(gòu)成。

    此外 DeepSeek 團(tuán)隊(duì)還引入了通用 RL 數(shù)據(jù)以提升 DeepSeek-R1 的有用性與無(wú)害性。在訓(xùn)練過(guò)程中,研究人員采用了兩個(gè)獨(dú)立訓(xùn)練的獎(jiǎng)勵(lì)模型,一個(gè)針對(duì)“有用”排序數(shù)據(jù)訓(xùn)練,涵蓋創(chuàng)意寫(xiě)作、編輯、事實(shí)問(wèn)答等領(lǐng)域的 6.6萬(wàn)題,一個(gè)針對(duì)“無(wú)害”排序數(shù)據(jù)訓(xùn)練,由1.2 萬(wàn)題構(gòu)成。

    特別值得一提的是,在最新版論文中,DeepSeek 團(tuán)隊(duì)正面回應(yīng)了此前關(guān)于 R1 蒸餾 OpenAI 模型的質(zhì)疑。

    研究團(tuán)隊(duì)專(zhuān)門(mén)為此設(shè)計(jì)了一項(xiàng)試驗(yàn),使用 Qwen2-7B 作為基礎(chǔ)模型時(shí),通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,該模型同樣可以自主發(fā)展出各種先進(jìn)推理策略。而 Qwen2-7B 的發(fā)布時(shí)間為 2024 年 6 月,顯然早于所有公開(kāi)的推理模型。蒸無(wú)可蒸,推理能力的優(yōu)化自然源于 DeepSeek-R1 開(kāi)創(chuàng)的強(qiáng)化學(xué)習(xí)方法。

    DeepSeek-R1 的另一大特征是在推理過(guò)程中更頻繁地使用“我”和“我們”等第一人稱(chēng)代詞。值得一提的是,這種效果是通過(guò)精心設(shè)計(jì)的冷啟動(dòng)數(shù)據(jù)所實(shí)現(xiàn)。

    論文中介紹,研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)推理過(guò)程符合第一人稱(chēng)視角的思維模式時(shí),用戶(hù)會(huì)認(rèn)為其回應(yīng)更直觀且具有吸引力。為此,研究團(tuán)隊(duì)要求標(biāo)注人員將推理軌跡轉(zhuǎn)換為更自然、更貼近人類(lèi)對(duì)話(huà)風(fēng)格的表達(dá),并以此作為示例提示大語(yǔ)言模型以類(lèi)似風(fēng)格重寫(xiě)更多。

    在如此收集到的數(shù)千條 CoT 數(shù)據(jù)中進(jìn)一步篩選出最終答案正確且格式清晰的,就得到了簡(jiǎn)潔、可讀性強(qiáng),既包含推理步驟,也涵蓋最終結(jié)果的高質(zhì)量冷啟動(dòng)數(shù)據(jù)。


    雙重里程碑

    時(shí)隔八個(gè)月再次回顧,DeepSeek-R1 因何成為大模型史上里程碑式的論文?

    有一部分答案藏在訓(xùn)練成本里。DeepSeek-R1 29.4 萬(wàn)美元的訓(xùn)練成本不僅只有當(dāng)時(shí)同等規(guī)模模型的十分之一,而且其中僅有 1 萬(wàn)美元被用于構(gòu)建 SFT 數(shù)據(jù)集。這意味和同行相比,它背后砍掉了大規(guī)模的監(jiān)督微調(diào)。

    屬于人類(lèi)的能力,也向人類(lèi)學(xué)習(xí),監(jiān)督微調(diào)曾經(jīng)是提升模型推理能力的共識(shí)。但它的局限性也很明顯,對(duì)人類(lèi)標(biāo)注推理軌跡的依賴(lài)顯著增加了模型訓(xùn)練成本,限制了可擴(kuò)展性,人類(lèi)的認(rèn)知偏見(jiàn)也在向模型滲透。

    更引人深思的問(wèn)題是,復(fù)制人類(lèi)思維過(guò)程真的是硅基推理的最優(yōu)解嗎?是否存在一種更優(yōu)越的、非人類(lèi)思維的推理方式?如果答案是肯定的,那一定在人類(lèi)示例之外。

    正是在這樣的背景下,DeepSeek-R1 提出了一種通過(guò)純粹強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)推理能力自我進(jìn)化發(fā)展的路徑,以擺脫對(duì)人工標(biāo)注推理軌跡的依賴(lài)。

    具體而言,研究團(tuán)隊(duì)基于 DeepSeek-V3 Base,并使用組相對(duì)策略?xún)?yōu)化(GRPO)作為強(qiáng)化學(xué)習(xí)框架。在全新的訓(xùn)練范式下,僅對(duì)最終答案的正確性進(jìn)行獎(jiǎng)勵(lì),而不對(duì)推理過(guò)程本身施加約束。簡(jiǎn)單來(lái)說(shuō),就是推理方式不限,能抓到耗子就是好貓。

    這種訓(xùn)練方案設(shè)計(jì)和研究團(tuán)隊(duì)的假設(shè)一脈相承:人類(lèi)定義的推理模式可能會(huì)限制模型探索,而不受限制的強(qiáng)化學(xué)習(xí)訓(xùn)練能更好地激勵(lì) LLMs 中新型推理能力的出現(xiàn)。

    實(shí)驗(yàn)結(jié)果表明,DeepSeek-R1-Zero 的確自然地發(fā)展出了多樣化和復(fù)雜的推理行為。為解決推理問(wèn)題,它表現(xiàn)出了生成更長(zhǎng)響應(yīng)的傾向,并且存在在每個(gè)響應(yīng)中包含驗(yàn)證、反思和探索替代方法的趨勢(shì)。

    “盡管我們沒(méi)有明確地教模型如何推理,但它通過(guò)強(qiáng)化學(xué)習(xí)成功學(xué)習(xí)了改進(jìn)的推理策略。”論文指出。

    展現(xiàn)出強(qiáng)大推理能力的同時(shí),DeepSeek-R1-Zero 在可讀性差和語(yǔ)言混雜等方面仍存在挑戰(zhàn)。這一問(wèn)題的根源在于 DeepSeek-V3 Base 是在多種語(yǔ)言上完成訓(xùn)練,為此 DeepSeek-R1 的開(kāi)發(fā)被提上日程。

    這一次,研究團(tuán)隊(duì)不僅通過(guò)多階段強(qiáng)化學(xué)習(xí)訓(xùn)練改進(jìn)模型在對(duì)話(huà)式推理過(guò)程、語(yǔ)言一致性以及人類(lèi)偏好對(duì)齊方面的表現(xiàn),而且在拒絕采樣和監(jiān)督微調(diào)環(huán)節(jié)將推理和非推理數(shù)據(jù)集都納入 SFT 過(guò)程,這一設(shè)計(jì)使 DeepSeek-R1 不僅能在推理任務(wù)中表現(xiàn)出色,還展示出了高級(jí)的寫(xiě)作能力。

    基準(zhǔn)測(cè)試結(jié)果顯示,脫胎于全新訓(xùn)練范式下的 DeepSeek-R1 在 MMLU、C-Eval、GPQA Diamond、Arena-Hard、SWE-bench Verified、AIME 2024 上均表現(xiàn)出色。而更直接的例子,則是在 2025 年春節(jié)之后的一段時(shí)間里,DeepSeek-R1 幾乎成為了國(guó)產(chǎn)大模型的代名詞。

    LLMs 的推理能力可以通過(guò)純 RL 進(jìn)行激勵(lì),無(wú)需人工標(biāo)注推理軌跡的參與。這一今天已成為共識(shí)的創(chuàng)想,最初就是經(jīng)由 DeepSeek-R1 所實(shí)現(xiàn)。DeepSeek 團(tuán)隊(duì)在此基礎(chǔ)上構(gòu)建的 RL 框架,也促進(jìn)了自我反思、驗(yàn)證和動(dòng)態(tài)策略適應(yīng)等高級(jí)推理模式的涌現(xiàn)。

    而今天,這一突破性成果經(jīng)受住了學(xué)術(shù)出版審查。主動(dòng)接受專(zhuān)家評(píng)審的拷問(wèn),補(bǔ)充材料說(shuō)明技術(shù)細(xì)節(jié),并最終作為頂刊封面論文刊發(fā)……如果說(shuō) DeepSeek-R1 的初次發(fā)布是一個(gè)關(guān)于前沿技術(shù)突破的故事,那么時(shí)隔八個(gè)月之后,這個(gè)故事的關(guān)鍵詞變成了學(xué)術(shù)透明和技術(shù)開(kāi)放。

    補(bǔ)充各種技術(shù)細(xì)節(jié)之后,《Nature》最新這篇封面論文堪稱(chēng)“手把手教你訓(xùn) R1”。它讓我們看到頭部科技企業(yè)的核心成果不是只能封裝成語(yǔ)焉不詳?shù)暮诤刑峁┙o用戶(hù),而是也可以拿到同行評(píng)審面前接受審視,以及更重要的,給出符合學(xué)術(shù)規(guī)范的解釋和回應(yīng)。

    商業(yè)化考量讓 OpenAI、Google 等科技巨頭紛紛和傳統(tǒng)的學(xué)術(shù)審查保持距離,這本無(wú)可非議,但是當(dāng) DeepSeek-R1 真的成為了可復(fù)現(xiàn)、可驗(yàn)證的學(xué)術(shù)成果,這種對(duì)技術(shù)開(kāi)放性的追求無(wú)疑也讓研究團(tuán)隊(duì)的選擇更加可敬。

    在雙重意義上,DeepSeek-R1 都堪稱(chēng)里程碑。

    參考資料:

    https://www.nature.com/articles/s41586-025-09422-z#ethics

    https://www.nature.com/articles/d41586-025-03015-6

    雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))文章

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話(huà)
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: 免费一级A片久久精品| 日本欧美大码a在线观看| 久久永久精品免费视频 | 欧美激情第一欧美精品图片一| 亚洲码和欧洲码一二三四| 激情人妻系列| 无码中出人妻| 永久免费AV网站sm调教| 在线观看AV永久免费| 极品少妇无套内射视频| 色猫咪av在线观看| 国内自拍av在线免费| 在线观看无码av五月花| 国产91精品一区二区亚洲| 偷拍激情视频一区二区三区| 一级做a爰片久久毛片4个| 少妇人妻偷人精品视频| 激情综合色综合久久丁香| 成人国产片视频在线观看| 99re8这里只有精品| 精品熟女少妇免费久久| 99精品久久久中文字幕| 国产A V无码专区亚洲AV| 鲁丝一区鲁丝二区鲁丝三区| 深夜福利资源在线观看| 国产精品va| 亚洲性天堂| 五月一区二区久久综合天堂| 国产在线精品一区二区中文| 日本道之久夂综合久久爱| 中文人妻无码一区二区三区| 国产精品一区av在线观看| 免费观看又污又黄在线观看| 99网友自拍视频在线| caoporn国产| 亚洲AV成人片| 精品久久久无码中文字幕边打电话 | 精品99视频| 亚洲人午夜射精精品日韩| 国产小受被做到哭咬床单GV| 国产乱码一二三区精品|