賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式一秒偵破大模型“高分低能”

本文作者： nebula

2024-07-19 18:12

導(dǎo)語：賈佳亞團(tuán)隊(duì)全新評(píng)測基準(zhǔn)MR-Ben發(fā)布，拒絕大模型“高分低能”。

賈佳亞團(tuán)隊(duì)全新評(píng)測基準(zhǔn)MR-Ben發(fā)布，拒絕大模型“高分低能”

隨著人工智能領(lǐng)域經(jīng)歷GPT時(shí)刻，學(xué)術(shù)界和產(chǎn)業(yè)界共同發(fā)力，每月甚至每周都有新的模型問世，大模型產(chǎn)品之多可以說是讓人眼花繚亂。為了篩選出真正業(yè)界領(lǐng)先的大模型產(chǎn)品，業(yè)內(nèi)衍生出了錯(cuò)綜復(fù)雜的各類大模型評(píng)測方式，大家都希望為大模型做出客觀公正的評(píng)測，看看究竟哪家產(chǎn)品能力更強(qiáng)。

但為了在行業(yè)中“脫穎而出”，業(yè)內(nèi)也不斷出現(xiàn)類似“刷榜”的做法，通過專項(xiàng)針對(duì)評(píng)測題庫進(jìn)行“預(yù)訓(xùn)練”從而獲取高評(píng)分，導(dǎo)致部分大模型出現(xiàn)“高分低能”的現(xiàn)象，在實(shí)際場景當(dāng)中表現(xiàn)不佳。

為此，賈佳亞團(tuán)隊(duì)聯(lián)合MIT、清華、劍橋等多家知名高校，與國內(nèi)頭部標(biāo)注公司合作，標(biāo)注了一個(gè)針對(duì)復(fù)雜問題推理過程的評(píng)測數(shù)據(jù)集MR-Ben，基于GSM8K、MMLU、LogiQA、MHPP等大模型預(yù)訓(xùn)練必測數(shù)據(jù)集的題目，進(jìn)行“閱卷式”的范式改造，生成更難、更有區(qū)分度的新數(shù)據(jù)集，從而真實(shí)地反映模型推理能力。

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式一秒偵破大模型“高分低能”

從“刷題考生”變“閱卷老師”，閱卷式考察反映大模型真實(shí)水平

目前主流大模型評(píng)測是使用人類的標(biāo)準(zhǔn)化考試——選擇題和填空題的方式去進(jìn)行大模型評(píng)測。使用這套測試方式的好處有很多, 標(biāo)準(zhǔn)明確、指標(biāo)直觀，且量化結(jié)果天然具有話題性。

但作者認(rèn)為這種逐步作答的思維鏈方式生成最終答案，并不“靠譜”。

結(jié)合大模型的訓(xùn)練方式來看，預(yù)訓(xùn)練模型在預(yù)訓(xùn)練時(shí)早已見過數(shù)以萬億級(jí)別的詞元，很難說被評(píng)測的模型是否早已見過相應(yīng)的數(shù)據(jù)，從而通過“背題”的方式回答正確。而在分步作答的時(shí)候，模型是否是基于正確的理解推理選出正確的選項(xiàng)，我們不得而知，因?yàn)樵u(píng)測的方式主要靠檢查最終的答案。

盡管學(xué)術(shù)界不斷地對(duì)諸如GSM8K、MMLU等數(shù)據(jù)集進(jìn)行升級(jí)改造，如在GSM8K上引入多語言版本的MGSM數(shù)據(jù)集，在MMLU的基礎(chǔ)上引入更難的題目等，依然無法擺脫選擇或填空的窠臼。并且，這些數(shù)據(jù)集都已面臨著嚴(yán)重的飽和問題，大語言模型在這些指標(biāo)上的數(shù)值已經(jīng)見頂，并逐漸喪失了區(qū)分度。

而賈佳亞團(tuán)隊(duì)的選擇是從評(píng)測模式的底層進(jìn)行改革，從而真實(shí)反映模型推理能力。

害怕數(shù)據(jù)泄露導(dǎo)致的大模型背題導(dǎo)致分?jǐn)?shù)虛高嗎？賈佳亞團(tuán)隊(duì)打造的MR-Ben不用重新找題出卷，也不用把題目變形來測試模型的穩(wěn)健性，MR-Ben直接讓模型從答題者的學(xué)生身份，轉(zhuǎn)變?yōu)閷?duì)答題過程的“閱卷”模式，讓大模型當(dāng)老師來測試它對(duì)知識(shí)點(diǎn)的掌握情況！

不是擔(dān)心模型對(duì)解題過程毫無知覺，有可能出現(xiàn)“幻覺”或錯(cuò)誤的理解，蒙對(duì)答案嗎？MR-Ben直接招聘一批高水平的碩博標(biāo)注者，對(duì)大量題目的解題過程進(jìn)行精心標(biāo)注。把解題過程是否正確，出錯(cuò)的位置，出錯(cuò)的原因都細(xì)致指出，比對(duì)大模型的閱卷結(jié)果和人類專家的閱卷結(jié)果來測試模型的知識(shí)點(diǎn)掌握情況。

具體來說，賈佳亞團(tuán)隊(duì)針對(duì)市面上主流的評(píng)測數(shù)據(jù)集GSM8K、MMLU、LogiQA、MHPP等數(shù)據(jù)集進(jìn)行整理，并分成了數(shù)理化生、代碼、邏輯、醫(yī)藥等多個(gè)類別，同時(shí)區(qū)分了不同的難度等級(jí)。針對(duì)每個(gè)類別、收集到的每個(gè)問題，團(tuán)隊(duì)精心收集了對(duì)應(yīng)的分步解題過程，并經(jīng)由專業(yè)的碩博標(biāo)注者進(jìn)行培訓(xùn)和標(biāo)注。

從評(píng)測方式來看，MR-Ben所提出的方法需要模型對(duì)于解題過程的每一個(gè)步驟的前提、假設(shè)、邏輯都進(jìn)行細(xì)致分析，并對(duì)推理過程進(jìn)行預(yù)演來判斷當(dāng)前步驟是否能導(dǎo)向正確答案。

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式一秒偵破大模型“高分低能”

這種“閱卷”式的評(píng)測方式從難度上遠(yuǎn)超于僅答題的評(píng)測方式，但可有效避免模型背題所導(dǎo)致的分?jǐn)?shù)虛高問題。而只會(huì)背題的學(xué)生很難成為一名合格的閱卷老師。

其次，MR-Ben通過使用了人力精細(xì)的標(biāo)注流程控制，取得了大量的高質(zhì)量標(biāo)注，而巧妙的流程設(shè)計(jì)又使得評(píng)測方式能夠直觀地量化。

知名大模型公開評(píng)測，GPT4-Turbo表現(xiàn)最佳

賈佳亞團(tuán)隊(duì)針對(duì)性測試了時(shí)下最具代表性的十大大語言模型和不同版本。可以看到，閉源大語言模型里，GPT4-Turbo的表現(xiàn)最佳（雖然在“閱卷”時(shí)未能發(fā)現(xiàn)計(jì)算錯(cuò)誤），在絕大部分的科目里，有demo（k=1）和無demo（k=0）的設(shè)置下都領(lǐng)先于其他模型。

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式一秒偵破大模型“高分低能”

部分開源大語言模型在MR-Ben數(shù)據(jù)集上的測評(píng)結(jié)果

可以看到，最強(qiáng)的部分開源大語言模型效果已經(jīng)趕上了部分商用模型，并且哪怕最強(qiáng)的閉源模型在MR-Ben數(shù)據(jù)集上表現(xiàn)也仍未飽和，不同模型間的區(qū)分度較大。

除此之外，MR-Ben的原論文里還有更多有意思的解析和發(fā)現(xiàn)，例如：

? Qwen和Deepseek發(fā)布的開源模型哪怕在全球梯隊(duì)里，PK閉源模型效果也不遜色。

? 不同的閉源模型定價(jià)策略和實(shí)際表現(xiàn)耐人尋味。在使用場景里關(guān)注推理能力的小伙伴，可以對(duì)照價(jià)格和能力找到自己心儀的模型去使用。

? 低資源場景下，小模型也有不少亮點(diǎn)，MR-Ben評(píng)測中Phi-3-mini在一眾小模型里脫穎而出，甚至高于或持平幾百億參數(shù)的大模型，展現(xiàn)出了微調(diào)數(shù)據(jù)的重要性。

? MR-Ben場景包含復(fù)雜的邏輯解析和逐步推斷，F(xiàn)ew-shot模式下過長的上下文反而會(huì)使得模型困惑，造成水平下降的后果。

? MR-Ben評(píng)測了不少生成-反思-重生成的消融實(shí)驗(yàn)，查看不同提示策略的差異，發(fā)現(xiàn)對(duì)低水平的模型沒有效果，對(duì)高水平的模型如GPT4-Turbo效果也不明顯。反而對(duì)中間水平的模型因?yàn)榭偘彦e(cuò)的改對(duì)，對(duì)的改錯(cuò)，效果反而略有提升。

? 將MR-Ben評(píng)測的科目粗略劃分成知識(shí)型、邏輯型、計(jì)算型、算法型后，不同的模型在不同的推理類型上各有優(yōu)劣。

目前賈佳亞團(tuán)隊(duì)已在github上傳一鍵評(píng)測的方式，歡迎所有關(guān)注復(fù)雜推理的小伙伴在自家的模型上評(píng)測并提交，團(tuán)隊(duì)會(huì)及時(shí)更新相應(yīng)的leaderboard。使用官方的腳本一鍵評(píng)測，只需花費(fèi)12M tokens左右，過程非常絲滑，值得一試。

Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/

Arxiv Page: https://arxiv.org/abs/2406.13975

Github Repo: https://github.com/dvlab-research/Mr-Ben

參考

1. Training Verifiers to Solve Math Word Problems （https://arxiv.org/abs/2110.14168）

2. Measuring Massive Multitask Language Understanding（ https://arxiv.org/abs/2009.03300）

3. LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning （https://arxiv.org/abs/2007.08124）

4. MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation（ https://arxiv.org/abs/2405.11430）

5. Sparks of Artificial General Intelligence: Early experiments with GPT-4 （https://arxiv.org/abs/2303.12712）

6. Qwen Technical Report （https://arxiv.org/abs/2309.16609）

7. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model （https://arxiv.org/abs/2405.04434）

8. Textbooks Are All You Need （https://arxiv.org/abs/2306.11644）

9. Large Language Models Cannot Self-Correct Reasoning Yet （https://arxiv.org/abs/2310.01798）

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

0人收藏

相關(guān)文章

nebula

運(yùn)營

發(fā)私信

當(dāng)月熱門文章

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式 一秒偵破大模型“高分低能”

賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式一秒偵破大模型“高分低能”