• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    業(yè)界 正文
    發(fā)私信給nebula
    發(fā)送

    0

    賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式 一秒偵破大模型“高分低能”

    本文作者: nebula 2024-07-19 18:12
    導(dǎo)語:賈佳亞團(tuán)隊(duì)全新評(píng)測基準(zhǔn)MR-Ben發(fā)布,拒絕大模型“高分低能”。

    賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式 一秒偵破大模型“高分低能”

    賈佳亞團(tuán)隊(duì)全新評(píng)測基準(zhǔn)MR-Ben發(fā)布,拒絕大模型“高分低能”

    隨著人工智能領(lǐng)域經(jīng)歷GPT時(shí)刻,學(xué)術(shù)界和產(chǎn)業(yè)界共同發(fā)力,每月甚至每周都有新的模型問世,大模型產(chǎn)品之多可以說是讓人眼花繚亂。為了篩選出真正業(yè)界領(lǐng)先的大模型產(chǎn)品,業(yè)內(nèi)衍生出了錯(cuò)綜復(fù)雜的各類大模型評(píng)測方式,大家都希望為大模型做出客觀公正的評(píng)測,看看究竟哪家產(chǎn)品能力更強(qiáng)。

    但為了在行業(yè)中“脫穎而出”,業(yè)內(nèi)也不斷出現(xiàn)類似“刷榜”的做法,通過專項(xiàng)針對(duì)評(píng)測題庫進(jìn)行“預(yù)訓(xùn)練”從而獲取高評(píng)分,導(dǎo)致部分大模型出現(xiàn)“高分低能”的現(xiàn)象,在實(shí)際場景當(dāng)中表現(xiàn)不佳。

    為此,賈佳亞團(tuán)隊(duì)聯(lián)合MIT、清華、劍橋等多家知名高校,與國內(nèi)頭部標(biāo)注公司合作,標(biāo)注了一個(gè)針對(duì)復(fù)雜問題推理過程的評(píng)測數(shù)據(jù)集MR-Ben,基于GSM8K、MMLU、LogiQA、MHPP等大模型預(yù)訓(xùn)練必測數(shù)據(jù)集的題目,進(jìn)行“閱卷式”的范式改造,生成更難、更有區(qū)分度的新數(shù)據(jù)集,從而真實(shí)地反映模型推理能力。

    賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式 一秒偵破大模型“高分低能”

    從“刷題考生”變“閱卷老師”,閱卷式考察反映大模型真實(shí)水平

    目前主流大模型評(píng)測是使用人類的標(biāo)準(zhǔn)化考試——選擇題和填空題的方式去進(jìn)行大模型評(píng)測。使用這套測試方式的好處有很多, 標(biāo)準(zhǔn)明確、指標(biāo)直觀,且量化結(jié)果天然具有話題性。

    但作者認(rèn)為這種逐步作答的思維鏈方式生成最終答案,并不“靠譜”。

    結(jié)合大模型的訓(xùn)練方式來看,預(yù)訓(xùn)練模型在預(yù)訓(xùn)練時(shí)早已見過數(shù)以萬億級(jí)別的詞元,很難說被評(píng)測的模型是否早已見過相應(yīng)的數(shù)據(jù),從而通過“背題”的方式回答正確。而在分步作答的時(shí)候,模型是否是基于正確的理解推理選出正確的選項(xiàng),我們不得而知,因?yàn)樵u(píng)測的方式主要靠檢查最終的答案。

    盡管學(xué)術(shù)界不斷地對(duì)諸如GSM8K、MMLU等數(shù)據(jù)集進(jìn)行升級(jí)改造,如在GSM8K上引入多語言版本的MGSM數(shù)據(jù)集,在MMLU的基礎(chǔ)上引入更難的題目等,依然無法擺脫選擇或填空的窠臼。并且,這些數(shù)據(jù)集都已面臨著嚴(yán)重的飽和問題,大語言模型在這些指標(biāo)上的數(shù)值已經(jīng)見頂,并逐漸喪失了區(qū)分度。

    而賈佳亞團(tuán)隊(duì)的選擇是從評(píng)測模式的底層進(jìn)行改革,從而真實(shí)反映模型推理能力。

    害怕數(shù)據(jù)泄露導(dǎo)致的大模型背題導(dǎo)致分?jǐn)?shù)虛高嗎?賈佳亞團(tuán)隊(duì)打造的MR-Ben不用重新找題出卷,也不用把題目變形來測試模型的穩(wěn)健性,MR-Ben直接讓模型從答題者的學(xué)生身份,轉(zhuǎn)變?yōu)閷?duì)答題過程的“閱卷”模式,讓大模型當(dāng)老師來測試它對(duì)知識(shí)點(diǎn)的掌握情況!

    不是擔(dān)心模型對(duì)解題過程毫無知覺,有可能出現(xiàn)“幻覺”或錯(cuò)誤的理解,蒙對(duì)答案嗎?MR-Ben直接招聘一批高水平的碩博標(biāo)注者,對(duì)大量題目的解題過程進(jìn)行精心標(biāo)注。把解題過程是否正確,出錯(cuò)的位置,出錯(cuò)的原因都細(xì)致指出,比對(duì)大模型的閱卷結(jié)果和人類專家的閱卷結(jié)果來測試模型的知識(shí)點(diǎn)掌握情況。

    具體來說,賈佳亞團(tuán)隊(duì)針對(duì)市面上主流的評(píng)測數(shù)據(jù)集GSM8K、MMLU、LogiQA、MHPP等數(shù)據(jù)集進(jìn)行整理,并分成了數(shù)理化生、代碼、邏輯、醫(yī)藥等多個(gè)類別,同時(shí)區(qū)分了不同的難度等級(jí)。針對(duì)每個(gè)類別、收集到的每個(gè)問題,團(tuán)隊(duì)精心收集了對(duì)應(yīng)的分步解題過程,并經(jīng)由專業(yè)的碩博標(biāo)注者進(jìn)行培訓(xùn)和標(biāo)注。

    從評(píng)測方式來看,MR-Ben所提出的方法需要模型對(duì)于解題過程的每一個(gè)步驟的前提、假設(shè)、邏輯都進(jìn)行細(xì)致分析,并對(duì)推理過程進(jìn)行預(yù)演來判斷當(dāng)前步驟是否能導(dǎo)向正確答案。

    賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式 一秒偵破大模型“高分低能”

    這種“閱卷”式的評(píng)測方式從難度上遠(yuǎn)超于僅答題的評(píng)測方式,但可有效避免模型背題所導(dǎo)致的分?jǐn)?shù)虛高問題。而只會(huì)背題的學(xué)生很難成為一名合格的閱卷老師。

    其次,MR-Ben通過使用了人力精細(xì)的標(biāo)注流程控制,取得了大量的高質(zhì)量標(biāo)注,而巧妙的流程設(shè)計(jì)又使得評(píng)測方式能夠直觀地量化。

    知名大模型公開評(píng)測,GPT4-Turbo表現(xiàn)最佳

    賈佳亞團(tuán)隊(duì)針對(duì)性測試了時(shí)下最具代表性的十大大語言模型和不同版本。可以看到,閉源大語言模型里,GPT4-Turbo的表現(xiàn)最佳(雖然在“閱卷”時(shí)未能發(fā)現(xiàn)計(jì)算錯(cuò)誤),在絕大部分的科目里,有demo(k=1)和無demo(k=0)的設(shè)置下都領(lǐng)先于其他模型。

    賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式 一秒偵破大模型“高分低能”

    賈佳亞團(tuán)隊(duì)聯(lián)手劍橋清華等共推評(píng)測新范式 一秒偵破大模型“高分低能”

    部分開源大語言模型在MR-Ben數(shù)據(jù)集上的測評(píng)結(jié)果 

    可以看到,最強(qiáng)的部分開源大語言模型效果已經(jīng)趕上了部分商用模型,并且哪怕最強(qiáng)的閉源模型在MR-Ben數(shù)據(jù)集上表現(xiàn)也仍未飽和,不同模型間的區(qū)分度較大。

    除此之外,MR-Ben的原論文里還有更多有意思的解析和發(fā)現(xiàn),例如:

    ? Qwen和Deepseek發(fā)布的開源模型哪怕在全球梯隊(duì)里,PK閉源模型效果也不遜色。

    ? 不同的閉源模型定價(jià)策略和實(shí)際表現(xiàn)耐人尋味。在使用場景里關(guān)注推理能力的小伙伴,可以對(duì)照價(jià)格和能力找到自己心儀的模型去使用。

    ? 低資源場景下,小模型也有不少亮點(diǎn),MR-Ben評(píng)測中Phi-3-mini在一眾小模型里脫穎而出,甚至高于或持平幾百億參數(shù)的大模型,展現(xiàn)出了微調(diào)數(shù)據(jù)的重要性。

    ? MR-Ben場景包含復(fù)雜的邏輯解析和逐步推斷,F(xiàn)ew-shot模式下過長的上下文反而會(huì)使得模型困惑,造成水平下降的后果。

    ? MR-Ben評(píng)測了不少生成-反思-重生成的消融實(shí)驗(yàn),查看不同提示策略的差異,發(fā)現(xiàn)對(duì)低水平的模型沒有效果,對(duì)高水平的模型如GPT4-Turbo效果也不明顯。反而對(duì)中間水平的模型因?yàn)榭偘彦e(cuò)的改對(duì),對(duì)的改錯(cuò),效果反而略有提升。

    ? 將MR-Ben評(píng)測的科目粗略劃分成知識(shí)型、邏輯型、計(jì)算型、算法型后,不同的模型在不同的推理類型上各有優(yōu)劣。

    目前賈佳亞團(tuán)隊(duì)已在github上傳一鍵評(píng)測的方式,歡迎所有關(guān)注復(fù)雜推理的小伙伴在自家的模型上評(píng)測并提交,團(tuán)隊(duì)會(huì)及時(shí)更新相應(yīng)的leaderboard。使用官方的腳本一鍵評(píng)測,只需花費(fèi)12M tokens左右,過程非常絲滑,值得一試。

    Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/

    Arxiv Page: https://arxiv.org/abs/2406.13975

    Github Repo: https://github.com/dvlab-research/Mr-Ben

    參考

    1. Training Verifiers to Solve Math Word Problems (https://arxiv.org/abs/2110.14168)

    2. Measuring Massive Multitask Language Understanding( https://arxiv.org/abs/2009.03300)

    3. LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning (https://arxiv.org/abs/2007.08124)

    4. MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation( https://arxiv.org/abs/2405.11430)

    5. Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)

    6. Qwen Technical Report (https://arxiv.org/abs/2309.16609)

    7. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (https://arxiv.org/abs/2405.04434)

    8. Textbooks Are All You Need (https://arxiv.org/abs/2306.11644)

    9. Large Language Models Cannot Self-Correct Reasoning Yet (https://arxiv.org/abs/2310.01798)

    雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 超碰人人色| 精品制服丝袜亚洲专区| 欧美三级午夜理伦三级| 99中文字幕精品国产| 精品无人区一区二区三区在线| 亚洲精品综合| 亚洲综合色区激情自拍| 色哟哟www网站入口成人学校| 日韩少妇人妻vs中文字幕| 狠狠干性| 亚洲成人精品无码系列| 国产午夜无码片在线观看网站| 欧美s码亚洲码精品m码| 国产一区二区不卡91| 亚洲AV成人片不卡无码| 午夜羞羞影院男女爽爽爽| 国产精品狼人久久久影院| 深夜国产成人福利在线观看| av在线网站手机播放| 中文字幕无码免费不卡视频| 99j久久精品久久久久久| 岐山县| 亚洲娇小与黑人巨大交| 在线亚洲高清揄拍自拍一品区| 99久久国产综合精品色| 亚洲天堂2013| 成人综合精品| 免费人成黄页网站在线观看| 国产成人精选视频在线观看不卡| 99riav精品免费视频观看| 亚洲精品综合网二三区| 天天综合久久| 国产性天天综合网| 老熟女网站| 丰满少妇特黄一区二区三区| 自拍视频啪| 无码专区 人妻系列 在线| 中文字幕亚洲在线| 国产浮力第一页| 日本亚洲成人中文字幕| 国产av无码专区亚洲av软件|