DeepSeek-R1 登上《Nature》封面：只花了 200 萬(wàn)，沒(méi)蒸餾 OpenAI

本文作者：梁丙鑒

2025-09-18 14:57

導(dǎo)語(yǔ)：DeepSeek-R1 又開(kāi)先例，成為首個(gè)登上《Nature》封面的中國(guó)大模型。

雷峰網(wǎng)訊 DeepSeek-R1 又開(kāi)先例，成為首個(gè)登上《Nature》封面的中國(guó)大模型。

2025 年春節(jié)，DeepSeek-R1 橫空出世，因其極低的訓(xùn)練成本引發(fā)病毒式傳播。八個(gè)月過(guò)去，這一成果帶著 Nature 的金字招牌再次回到公眾視野中央，只為一件事：技術(shù)透明。

這篇名為 DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的《Nature》封面論文由創(chuàng)始人梁文鋒擔(dān)任通訊作者。文中首次確認(rèn)了此前流傳的DeepSeek R1 訓(xùn)練成本，約 29.4 萬(wàn)美元，折合人民幣約 208 萬(wàn)，并進(jìn)一步披露了模型訓(xùn)練中采用的數(shù)據(jù)類(lèi)型、強(qiáng)化學(xué)習(xí)方案等技術(shù)細(xì)節(jié)。

在揭開(kāi)這一里程碑式大模型的面紗之外，這篇論文更大的意義，是 DeepSeek-R1 作為全球首個(gè)經(jīng)歷了同行評(píng)審的大語(yǔ)言模型，將大模型研究推向了更透明、可重復(fù)的方向。

此前業(yè)內(nèi)通行的做法，是科技公司在自家官網(wǎng)、論文預(yù)印本網(wǎng)站 arXiv或知名技術(shù)論壇上發(fā)布突破性成果及基準(zhǔn)測(cè)試分?jǐn)?shù)，大部分模型 API 隨后即向公眾開(kāi)放。這一過(guò)程繞開(kāi)了傳統(tǒng)學(xué)術(shù)評(píng)價(jià)體系中的同行評(píng)審環(huán)節(jié)，而 DeepSeek 團(tuán)隊(duì)則主動(dòng)接受了這一來(lái)自學(xué)術(shù)界的審視。

根據(jù) 《Nature》公布的補(bǔ)充信息顯示，評(píng)審意見(jiàn)主要集中在實(shí)驗(yàn)評(píng)估、模型安全性和倫理風(fēng)險(xiǎn)等方面，要求補(bǔ)充 OOD（分布外）測(cè)試、中間階段性能分析、誤用討論等工作。正是針對(duì)上述同行評(píng)審意見(jiàn)，DeepSeek 團(tuán)隊(duì)才增加了對(duì)數(shù)據(jù)類(lèi)型等訓(xùn)練細(xì)節(jié)的披露，并進(jìn)一步證明了成果的安全性。

“這是一個(gè)非常值得歡迎的先例，“論文評(píng)審之一，Hugging Face 機(jī)器學(xué)習(xí)工程師 Lewis Tunstall 表示，”如果我們沒(méi)有公開(kāi)分享這一過(guò)程大部分內(nèi)容的規(guī)范，那么將很難評(píng)估這些系統(tǒng)是否構(gòu)成風(fēng)險(xiǎn)。“

公開(kāi)訓(xùn)練細(xì)節(jié)，回應(yīng)“蒸餾”質(zhì)疑

那么在最新版本的論文中， DeepSeek 團(tuán)隊(duì)都補(bǔ)充了 R1 的哪些訓(xùn)練細(xì)節(jié)呢？

首先是訓(xùn)練成本，此前曾震動(dòng)華爾街的 29.4 萬(wàn)美元數(shù)據(jù)終于得到證實(shí)。

DeepSeek-R1 登上《Nature》封面：只花了 200 萬(wàn)，沒(méi)蒸餾 OpenAI

據(jù)補(bǔ)充材料介紹， DeepSeek-R1 的研究工作分為三個(gè)階段。

第一階段使用 A100 GPU 對(duì) 30B 參數(shù)的小模型進(jìn)行實(shí)驗(yàn)預(yù)研，因結(jié)果表現(xiàn)良好，使團(tuán)隊(duì)有信心將規(guī)模擴(kuò)大至 660B 參數(shù)的 R1-Zero 和 R1。

第二階段的成果是 DeepSeek-R1-Zero，研究團(tuán)隊(duì)動(dòng)用了 512 塊 H800 GPU，耗時(shí)約 198 小時(shí)。

最后是 DeepSeek-R1，仍然采用 512 塊 H800 GPU 的配置，但僅用時(shí) 80 小時(shí)便宣告完成。

在訓(xùn)練數(shù)據(jù)構(gòu)成方面， DeepSeek-R1 采用了數(shù)學(xué)、編程、STEM、邏輯四大類(lèi)題目。

其中數(shù)學(xué)數(shù)據(jù)集由 2.6 萬(wàn)道定量推理題構(gòu)成，涵蓋數(shù)學(xué)考試和競(jìng)賽題目，模型需逐步推理并給出最終正確答案。

編程數(shù)據(jù)集由 1.7 萬(wàn)道算法競(jìng)賽題與 8 千道 Bug修復(fù)題構(gòu)成，其中后者全部來(lái)自真實(shí)的GitHub issue，數(shù)據(jù)集提供問(wèn)題描述、含缺陷源碼與部分失敗的單元測(cè)試，要求模型定位并修復(fù)缺陷，使代碼通過(guò)全部測(cè)試。

STEM 數(shù)據(jù)集由 2.2 萬(wàn)道選擇題構(gòu)成，覆蓋物理、化學(xué)、生物等學(xué)科，模型需選出最科學(xué)準(zhǔn)確的答案。

邏輯數(shù)據(jù)集由真實(shí)問(wèn)題和合成問(wèn)題共 1.5 萬(wàn)題構(gòu)成。

此外 DeepSeek 團(tuán)隊(duì)還引入了通用 RL 數(shù)據(jù)以提升 DeepSeek-R1 的有用性與無(wú)害性。在訓(xùn)練過(guò)程中，研究人員采用了兩個(gè)獨(dú)立訓(xùn)練的獎(jiǎng)勵(lì)模型，一個(gè)針對(duì)“有用”排序數(shù)據(jù)訓(xùn)練，涵蓋創(chuàng)意寫(xiě)作、編輯、事實(shí)問(wèn)答等領(lǐng)域的 6.6萬(wàn)題，一個(gè)針對(duì)“無(wú)害”排序數(shù)據(jù)訓(xùn)練，由1.2 萬(wàn)題構(gòu)成。

特別值得一提的是，在最新版論文中，DeepSeek 團(tuán)隊(duì)正面回應(yīng)了此前關(guān)于 R1 蒸餾 OpenAI 模型的質(zhì)疑。

研究團(tuán)隊(duì)專(zhuān)門(mén)為此設(shè)計(jì)了一項(xiàng)試驗(yàn)，使用 Qwen2-7B 作為基礎(chǔ)模型時(shí)，通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，該模型同樣可以自主發(fā)展出各種先進(jìn)推理策略。而 Qwen2-7B 的發(fā)布時(shí)間為 2024 年 6 月，顯然早于所有公開(kāi)的推理模型。蒸無(wú)可蒸，推理能力的優(yōu)化自然源于 DeepSeek-R1 開(kāi)創(chuàng)的強(qiáng)化學(xué)習(xí)方法。

DeepSeek-R1 的另一大特征是在推理過(guò)程中更頻繁地使用“我”和“我們”等第一人稱(chēng)代詞。值得一提的是，這種效果是通過(guò)精心設(shè)計(jì)的冷啟動(dòng)數(shù)據(jù)所實(shí)現(xiàn)。

論文中介紹，研究團(tuán)隊(duì)發(fā)現(xiàn)當(dāng)推理過(guò)程符合第一人稱(chēng)視角的思維模式時(shí)，用戶(hù)會(huì)認(rèn)為其回應(yīng)更直觀且具有吸引力。為此，研究團(tuán)隊(duì)要求標(biāo)注人員將推理軌跡轉(zhuǎn)換為更自然、更貼近人類(lèi)對(duì)話(huà)風(fēng)格的表達(dá)，并以此作為示例提示大語(yǔ)言模型以類(lèi)似風(fēng)格重寫(xiě)更多。

在如此收集到的數(shù)千條 CoT 數(shù)據(jù)中進(jìn)一步篩選出最終答案正確且格式清晰的，就得到了簡(jiǎn)潔、可讀性強(qiáng)，既包含推理步驟，也涵蓋最終結(jié)果的高質(zhì)量冷啟動(dòng)數(shù)據(jù)。

雙重里程碑

時(shí)隔八個(gè)月再次回顧，DeepSeek-R1 因何成為大模型史上里程碑式的論文？

有一部分答案藏在訓(xùn)練成本里。DeepSeek-R1 29.4 萬(wàn)美元的訓(xùn)練成本不僅只有當(dāng)時(shí)同等規(guī)模模型的十分之一，而且其中僅有 1 萬(wàn)美元被用于構(gòu)建 SFT 數(shù)據(jù)集。這意味和同行相比，它背后砍掉了大規(guī)模的監(jiān)督微調(diào)。

屬于人類(lèi)的能力，也向人類(lèi)學(xué)習(xí)，監(jiān)督微調(diào)曾經(jīng)是提升模型推理能力的共識(shí)。但它的局限性也很明顯，對(duì)人類(lèi)標(biāo)注推理軌跡的依賴(lài)顯著增加了模型訓(xùn)練成本，限制了可擴(kuò)展性，人類(lèi)的認(rèn)知偏見(jiàn)也在向模型滲透。

更引人深思的問(wèn)題是，復(fù)制人類(lèi)思維過(guò)程真的是硅基推理的最優(yōu)解嗎？是否存在一種更優(yōu)越的、非人類(lèi)思維的推理方式？如果答案是肯定的，那一定在人類(lèi)示例之外。

正是在這樣的背景下，DeepSeek-R1 提出了一種通過(guò)純粹強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)推理能力自我進(jìn)化發(fā)展的路徑，以擺脫對(duì)人工標(biāo)注推理軌跡的依賴(lài)。

具體而言，研究團(tuán)隊(duì)基于 DeepSeek-V3 Base，并使用組相對(duì)策略?xún)?yōu)化（GRPO）作為強(qiáng)化學(xué)習(xí)框架。在全新的訓(xùn)練范式下，僅對(duì)最終答案的正確性進(jìn)行獎(jiǎng)勵(lì)，而不對(duì)推理過(guò)程本身施加約束。簡(jiǎn)單來(lái)說(shuō)，就是推理方式不限，能抓到耗子就是好貓。

這種訓(xùn)練方案設(shè)計(jì)和研究團(tuán)隊(duì)的假設(shè)一脈相承：人類(lèi)定義的推理模式可能會(huì)限制模型探索，而不受限制的強(qiáng)化學(xué)習(xí)訓(xùn)練能更好地激勵(lì) LLMs 中新型推理能力的出現(xiàn)。

實(shí)驗(yàn)結(jié)果表明，DeepSeek-R1-Zero 的確自然地發(fā)展出了多樣化和復(fù)雜的推理行為。為解決推理問(wèn)題，它表現(xiàn)出了生成更長(zhǎng)響應(yīng)的傾向，并且存在在每個(gè)響應(yīng)中包含驗(yàn)證、反思和探索替代方法的趨勢(shì)。

“盡管我們沒(méi)有明確地教模型如何推理，但它通過(guò)強(qiáng)化學(xué)習(xí)成功學(xué)習(xí)了改進(jìn)的推理策略。”論文指出。

展現(xiàn)出強(qiáng)大推理能力的同時(shí)，DeepSeek-R1-Zero 在可讀性差和語(yǔ)言混雜等方面仍存在挑戰(zhàn)。這一問(wèn)題的根源在于 DeepSeek-V3 Base 是在多種語(yǔ)言上完成訓(xùn)練，為此 DeepSeek-R1 的開(kāi)發(fā)被提上日程。

這一次，研究團(tuán)隊(duì)不僅通過(guò)多階段強(qiáng)化學(xué)習(xí)訓(xùn)練改進(jìn)模型在對(duì)話(huà)式推理過(guò)程、語(yǔ)言一致性以及人類(lèi)偏好對(duì)齊方面的表現(xiàn)，而且在拒絕采樣和監(jiān)督微調(diào)環(huán)節(jié)將推理和非推理數(shù)據(jù)集都納入 SFT 過(guò)程，這一設(shè)計(jì)使 DeepSeek-R1 不僅能在推理任務(wù)中表現(xiàn)出色，還展示出了高級(jí)的寫(xiě)作能力。

基準(zhǔn)測(cè)試結(jié)果顯示，脫胎于全新訓(xùn)練范式下的 DeepSeek-R1 在 MMLU、C-Eval、GPQA Diamond、Arena-Hard、SWE-bench Verified、AIME 2024 上均表現(xiàn)出色。而更直接的例子，則是在 2025 年春節(jié)之后的一段時(shí)間里，DeepSeek-R1 幾乎成為了國(guó)產(chǎn)大模型的代名詞。

LLMs 的推理能力可以通過(guò)純 RL 進(jìn)行激勵(lì)，無(wú)需人工標(biāo)注推理軌跡的參與。這一今天已成為共識(shí)的創(chuàng)想，最初就是經(jīng)由 DeepSeek-R1 所實(shí)現(xiàn)。DeepSeek 團(tuán)隊(duì)在此基礎(chǔ)上構(gòu)建的 RL 框架，也促進(jìn)了自我反思、驗(yàn)證和動(dòng)態(tài)策略適應(yīng)等高級(jí)推理模式的涌現(xiàn)。

而今天，這一突破性成果經(jīng)受住了學(xué)術(shù)出版審查。主動(dòng)接受專(zhuān)家評(píng)審的拷問(wèn)，補(bǔ)充材料說(shuō)明技術(shù)細(xì)節(jié)，并最終作為頂刊封面論文刊發(fā)……如果說(shuō) DeepSeek-R1 的初次發(fā)布是一個(gè)關(guān)于前沿技術(shù)突破的故事，那么時(shí)隔八個(gè)月之后，這個(gè)故事的關(guān)鍵詞變成了學(xué)術(shù)透明和技術(shù)開(kāi)放。

補(bǔ)充各種技術(shù)細(xì)節(jié)之后，《Nature》最新這篇封面論文堪稱(chēng)“手把手教你訓(xùn) R1”。它讓我們看到頭部科技企業(yè)的核心成果不是只能封裝成語(yǔ)焉不詳?shù)暮诤刑峁┙o用戶(hù)，而是也可以拿到同行評(píng)審面前接受審視，以及更重要的，給出符合學(xué)術(shù)規(guī)范的解釋和回應(yīng)。

商業(yè)化考量讓 OpenAI、Google 等科技巨頭紛紛和傳統(tǒng)的學(xué)術(shù)審查保持距離，這本無(wú)可非議，但是當(dāng) DeepSeek-R1 真的成為了可復(fù)現(xiàn)、可驗(yàn)證的學(xué)術(shù)成果，這種對(duì)技術(shù)開(kāi)放性的追求無(wú)疑也讓研究團(tuán)隊(duì)的選擇更加可敬。

在雙重意義上，DeepSeek-R1 都堪稱(chēng)里程碑。

參考資料：

https://www.nature.com/articles/s41586-025-09422-z#ethics

https://www.nature.com/articles/d41586-025-03015-6

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))文章

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

梁丙鑒

編輯

發(fā)私信

當(dāng)月熱門(mén)文章