• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    內(nèi)部專用 正文
    發(fā)私信給吳思?jí)?/span>
    發(fā)送

    0

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    導(dǎo)語:公開數(shù)據(jù)顯示,ICML 2026共收到23,918篇有效投稿/進(jìn)入評(píng)審的投稿,錄用率約為26.6%。


    原文作者:公眾號(hào)“深圳市大數(shù)據(jù)研究院”

    原文鏈接:https://mp.weixin.qq.com/s/ex36drATo7qIy_MwFFp5hA



    近日,深圳市大數(shù)據(jù)研究院四項(xiàng)科研成果同時(shí)發(fā)表于第43屆國際機(jī)器學(xué)習(xí)大會(huì)(International Conference on Machine Learning, ICML)。


    會(huì)議介紹


    國際機(jī)器學(xué)習(xí)大會(huì)(International Conference on Machine Learning, ICML)是人工智能領(lǐng)域頂級(jí)學(xué)術(shù)會(huì)議,為中國計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類國際學(xué)術(shù)會(huì)議,與NeurIPS、ICLR通常并稱為機(jī)器學(xué)習(xí)領(lǐng)域的三大頂級(jí)會(huì)議。ICML長(zhǎng)期關(guān)注機(jī)器學(xué)習(xí)基礎(chǔ)理論、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、優(yōu)化方法、概率建模、可信機(jī)器學(xué)習(xí)、機(jī)器學(xué)習(xí)系統(tǒng),以及機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺、計(jì)算生物學(xué)、語音識(shí)別和機(jī)器人等領(lǐng)域的應(yīng)用。公開數(shù)據(jù)顯示,ICML 2026共收到23,918篇有效投稿/進(jìn)入評(píng)審的投稿,錄用率約為26.6%。


    論文簡(jiǎn)介

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments


    AdaMeZO:無需保存動(dòng)量矩的 Adam 風(fēng)格零階大語言模型微調(diào)優(yōu)化器

    關(guān)鍵詞

    大語言模型微調(diào)、零階優(yōu)化、優(yōu)化器、內(nèi)存效率


    摘要:大語言模型微調(diào)是提升模型在特定下游任務(wù)中表現(xiàn)的重要手段,但傳統(tǒng)基于反向傳播的一階優(yōu)化方法需要計(jì)算并存儲(chǔ)梯度,顯著增加顯存開銷,限制了大模型在資源受限設(shè)備上的部署與應(yīng)用。已有零階優(yōu)化方法 MeZO 僅依賴前向傳播即可完成微調(diào),大幅降低了顯存需求,但其更新方式類似隨機(jī)梯度下降,難以感知不同參數(shù)維度上的損失曲率差異,導(dǎo)致收斂速度較慢。與此同時(shí),直接引入Adam 等自適應(yīng)優(yōu)化器雖然能夠利用一階與二階矩估計(jì)提升收斂效率,但直接引入會(huì)額外存儲(chǔ)與模型參數(shù)同規(guī)模的動(dòng)量信息,從而削弱零階優(yōu)化的內(nèi)存優(yōu)勢(shì)。


    針對(duì)上述問題,論文提出 Adam 風(fēng)格零階優(yōu)化器 AdaMeZO。該方法通過截?cái)鄽v史梯度構(gòu)造近似的一階與二階矩估計(jì),并結(jié)合更細(xì)粒度的偽隨機(jī)數(shù)生成器狀態(tài)緩存機(jī)制,在需要更新參數(shù)時(shí)按塊原地重建歷史隨機(jī)方向,而無需在顯存中長(zhǎng)期維護(hù)完整動(dòng)量向量。由此,AdaMeZO 在保留 MeZO 低顯存優(yōu)勢(shì)的同時(shí),引入類似 Adam 的自適應(yīng)預(yù)條件更新能力,使模型能夠更有效地適應(yīng)復(fù)雜損失函數(shù)景觀中的不同曲率區(qū)域。


    理論分析表明,在非凸優(yōu)化假設(shè)下,AdaMeZO 能夠以O(shè)(1/√T)的速度收斂到平穩(wěn)點(diǎn)附近。實(shí)驗(yàn)在 RoBERTa、OPT、LLaMA 等模型及多類自然語言處理任務(wù)上驗(yàn)證了方法有效性。結(jié)果顯示,AdaMeZO 在多個(gè)任務(wù)中優(yōu)于 MeZO 和相關(guān)強(qiáng)基線,并在達(dá)到相同終止損失時(shí)最多減少約 70% 的前向傳播次數(shù);實(shí)測(cè)額外顯存僅約 7%,顯著低于需要顯式存儲(chǔ)矩估計(jì)的方法(額外顯存約50-100%)。該工作為低顯存開銷大語言模型高效微調(diào)提供了一種新的優(yōu)化方法。


    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖1:圖AdaMeZO 與 MeZO 在 SST-2 任務(wù)上的損失曲線對(duì)比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上達(dá)到 MeZO 終止損失時(shí),分別減少 69.75%、70.48% 和 70.90% 的前向傳播。

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖2:AdaMeZO 的分塊矩估計(jì)機(jī)制。與基于 seed 的整體隨機(jī)流控制相比,基于 PRNG 狀態(tài)緩存的分塊控制可在計(jì)算并釋放一、二階矩后進(jìn)入下一參數(shù)塊,從而減少額外顯存。


    論文第一作者蔡智捷與共同第一作者陳浩瀧為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)(深圳)聯(lián)合培養(yǎng)博士生、香港中文大學(xué)(深圳)理工學(xué)院博士生,通訊作者為深圳市大數(shù)據(jù)研究院研究員朱光旭博士

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional Variance


    Romberg 外推零階梯度估計(jì)器:保留主導(dǎo)方向方差的高階偏差減少

    關(guān)鍵詞

    零階優(yōu)化、梯度估計(jì)、龍貝格外推


    摘要:在現(xiàn)代學(xué)習(xí)與優(yōu)化中,常因梯度計(jì)算昂貴或不可得,需僅通過函數(shù)值查詢估計(jì)梯度。標(biāo)準(zhǔn)梯度估計(jì)存在偏差-方差制約,現(xiàn)有改進(jìn)方法難以兼顧兩者優(yōu)化。為此,本文提出Romberg-ZOGE方法,通過多尺度兩點(diǎn)估計(jì)結(jié)合Romberg外推,在降低偏差的同時(shí)保持方差不增。


    理論上,Romberg-ZOGE可實(shí)現(xiàn)高階偏差縮減且不增加主導(dǎo)方差。對(duì)確定性函數(shù)評(píng)估,其在多個(gè)半徑上構(gòu)造兩點(diǎn)估計(jì)并加權(quán),將偏差從O(r2) 降至 O(r2R+2),且主導(dǎo)方向方差與標(biāo)準(zhǔn)兩點(diǎn)估計(jì)器一致。針對(duì)ZO-SGD的隨機(jī)函數(shù)查詢,同次梯度估計(jì)的多查詢共享隨機(jī)樣本,噪聲可在差分與外推中抵消,避免額外放大,收斂復(fù)雜度不劣于基線。


    實(shí)驗(yàn)覆蓋三類場(chǎng)景:合成函數(shù)實(shí)驗(yàn)中,R=2時(shí)偏差呈接近O(r6)下降,遠(yuǎn)優(yōu)于標(biāo)準(zhǔn)兩點(diǎn)估計(jì)器的O(r2),且主導(dǎo)方差與基線相近;優(yōu)化實(shí)驗(yàn)中,相同查詢預(yù)算下收斂更快更穩(wěn)定;無線網(wǎng)絡(luò)優(yōu)化任務(wù)中,提升了平滑分位數(shù)頻譜效率目標(biāo)值;OPT-1.3B的SST-2黑箱prompt tuning任務(wù)中,取得最低訓(xùn)練損失及最高驗(yàn)證、測(cè)試準(zhǔn)確率。結(jié)果表明,Romberg-ZOGE兼具理論優(yōu)勢(shì)與實(shí)際黑箱優(yōu)化的穩(wěn)定收益。


    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖3:圖AdaMeZO 與 MeZO 在 SST-2 任務(wù)上的損失曲線對(duì)比。AdaMeZO 在 RoBERTa-large、OPT-1.3B 和 LLaMA-3B 上達(dá)到 MeZO 終止損失時(shí),分別減少 69.75%、70.48% 和 70.90% 的前向傳播。


    論文第一作者董洪成為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)(深圳)聯(lián)合培養(yǎng)博士生,通訊作者為深圳市大數(shù)據(jù)研究院副研究員蒲文強(qiáng)博士,共同作者為深圳市大數(shù)據(jù)研究院副研究員趙立成博士、周睿博士,香港中文大學(xué)(深圳)人工智能學(xué)院尹峰教授。

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    Think in Cloud, Look at Edges: Semantic-Driven Query Decomposition for Efficient Video Reasoning


    云端思考,邊端觀察:面向高效視頻推理的語義驅(qū)動(dòng)查詢分解

    關(guān)鍵詞

    長(zhǎng)視頻理解、邊云協(xié)同、語義驅(qū)動(dòng)查詢分解、關(guān)鍵幀選擇、多模態(tài)大模型


    摘要:長(zhǎng)視頻理解面臨帶寬、時(shí)延與精度矛盾:純?cè)贫朔桨改芰?qiáng)但上傳成本高,純邊緣方案響應(yīng)快但推理能力有限。本文發(fā)現(xiàn),現(xiàn)有邊云協(xié)同方法常將復(fù)雜問題壓縮為單一語義向量進(jìn)行相似度檢索,容易產(chǎn)生“語義淹沒”,使邏輯上關(guān)鍵但不突出的證據(jù)被顯著視覺線索覆蓋。為此,本文提出 SCOPE 框架,采用“云端思考、邊緣觀察”的范式:云端大模型將用戶問題分解為帶依賴關(guān)系和重要性權(quán)重的 DAG 觀測(cè)計(jì)劃,邊緣側(cè)據(jù)此進(jìn)行預(yù)算分配、并行語義匹配與關(guān)鍵幀選擇,上傳高價(jià)值證據(jù)幀。Video-MME 和 LongVideoBench 實(shí)驗(yàn)表明,SCOPE 在嚴(yán)格幀預(yù)算下穩(wěn)定優(yōu)于 Uniform、Top-K、AKS 等基線;在 16 幀設(shè)置下達(dá)到與純?cè)贫讼嗤?66.04% 準(zhǔn)確率,并將端到端時(shí)延由 154.22 秒降至 23.94 秒,降低約 85%。該研究為資源受限場(chǎng)景中的長(zhǎng)視頻高效推理提供了可部署的邊云協(xié)同新范式。


    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖4:SCOPE總體框架。云端大模型先生成結(jié)構(gòu)化觀測(cè)計(jì)劃,邊緣側(cè)依據(jù)計(jì)劃完成預(yù)算感知關(guān)鍵幀選擇,并將證據(jù)幀上傳云端進(jìn)行深度推理。


    本文第一作者為深圳市大數(shù)據(jù)研究院訪問博士Jackie Zou,第二作者為深圳市大數(shù)據(jù)研究院-香港中文大學(xué)(深圳)聯(lián)合培養(yǎng)博士生、香港中文大學(xué)(深圳)理工學(xué)院博士生蔡智捷,通訊作者為香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院助理教授余旻晨博士,深圳市大數(shù)據(jù)研究院研究員朱光旭博士。

    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    MIMOMamba: From Scalar Duality to Matrix-Valued Attention


    MIMOMamba:從標(biāo)量對(duì)偶到矩陣值注意力

    關(guān)鍵詞

    狀態(tài)空間模型(SSM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、結(jié)構(gòu)化矩陣、線性注意力機(jī)制


    摘要:現(xiàn)代序列建模需兼顧表達(dá)能力與效率。Transformer自注意力能力強(qiáng),但復(fù)雜度隨序列長(zhǎng)度二次增長(zhǎng);Mamba等結(jié)構(gòu)化狀態(tài)空間模型雖具線性效率,卻常將時(shí)序建模與跨通道交互分離,難以刻畫時(shí)變耦合。


    本文提出MIMOMamba,通過矩陣多項(xiàng)式參數(shù)化將狀態(tài)空間對(duì)偶性推廣至多輸入多輸出(MIMO)設(shè)置,在單一選擇性遞推中聯(lián)合建模時(shí)間依賴與跨通道交互,并保持線性效率。該方法將注意力元素由標(biāo)量擴(kuò)展為D×D矩陣,實(shí)現(xiàn)矩陣值結(jié)構(gòu)化注意力;同時(shí)借助共享代數(shù)基底保證交換性、降低參數(shù)冗余,使核心參數(shù)復(fù)雜度由Transformer約3D2降至約D2。

    實(shí)驗(yàn)表明,MIMOMamba在SSP物理預(yù)測(cè)基準(zhǔn)上以約35k參數(shù)取得最優(yōu)精度(RMSE=0.687),優(yōu)于多種先進(jìn)基線;推理內(nèi)存線性增長(zhǎng),訓(xùn)練吞吐量較Mamba-2提升1.5–1.6倍,為高效序列建模提供了新的理論與方法支撐。


    深圳市大數(shù)據(jù)研究院4項(xiàng)科研成果被ICML 2026錄用

    圖5:MIMOMamba 從遞推狀態(tài)空間模型到矩陣值注意力的對(duì)偶視角


    本文第一作者為深圳市大數(shù)據(jù)研究院訪問博士生、香港中文大學(xué)(深圳)博士生李彥伯,第二作者為香港中文大學(xué)(深圳)博士生Richard Cornelius SUWANDI,通訊作者為香港中文大學(xué)(深圳)人工智能學(xué)院尹峰教授,共同作者為香港中文大學(xué)(深圳)博士生孫藝勇、中國海洋大學(xué)黃威教授、深圳市大數(shù)據(jù)研究院副研究員蒲文強(qiáng)博士。


    雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 亚洲AV天天| 午夜福利看片在线观看| 一本色道久久综合精品婷婷| 少妇无码太爽了不卡视频在线看| 国产破外女出血视频| 亚洲国产成人AⅤ毛片奶水| 伊人亚洲综合网色AV另类 | 免费99视频| 丰满岳乱妇久久久| 欧美午夜精品久久久久久浪潮| 久久综合九色综合狠狠97| 姐姐6电视剧在线观看| 亚洲精品无码久久千人斩| 无码人妻品一区二区三区精99| 亚洲精品乱码久久久久久app| 99久久激情国产精品| 67194熟妇人妻欧美日韩| 99re6热精品视频在线播放| 免费国产黄网站在线观看动图| 亚洲无码免费在线观看| 国产精品毛片一区二区三区| 精品毛片日| 日韩一本不卡一区二区三区 | 四虎永久视频在线观看| 思思99热精品在线| 久久婷婷五月综合97色直播| 国产96在线 | 免费| 啪啪导航| 国产精品国产三级在线专区| 2021久久伊人精品中文字幕有| 亚洲丝袜在线播放| 国产日韩AV免费无码一区二区三区| 无码人妻精品一区二区三区蜜臀百度| 视频在线观看免费一区二区三区| 亚洲精品韩国一区二区| 亚洲综合无码明星蕉在线视频| 欧美69视频| 久久91综合国产91久久精品| 亚洲精品一区三区三区在| 卡一卡二精品| 99re热这里只有精品最新|