• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    本文作者: 陳淑瑜   2026-05-29 17:39 專題:CVPR 計算機視覺與模式識別會議
    導(dǎo)語:注意力的浮點精度不是必須的,歸一化流的"精確可逆"是可以放棄的……
    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉
    注意力的浮點精度不是必須的,歸一化流的"精確可逆"是可以放棄的……

        作者丨馬曉寧

        編輯丨岑   峰

                                                                                                                   

    這里有一幢大樓,叫做深度學(xué)習(xí)。

    過去幾年,人們不停地給它加蓋、擴建,越蓋越高,越蓋越復(fù)雜。這幢大樓叫 Transformer。蓋樓時用了一大批標(biāo)準(zhǔn)件,浮點精度是它的鋼筋,層歸一化和殘差連接是它的混凝土,因果掩碼是它的承重隔斷。旁邊還有兩棟附樓:一棟是擴散模型;另一棟歸一化流。在漫長的施工期里,人們不斷加裝更粗的鋼筋、更復(fù)雜的控制系統(tǒng),以為這樣做就能讓這幾棟樓更穩(wěn)固高大美觀。但是這樣真的是對的嗎?

    可現(xiàn)在,這些施工的收益越來越小,而有人在附樓里試出了更好的新零件,量化、去噪、可逆約束都有了更輕便的替代品。于是,一批施工隊同時進場,對準(zhǔn)這些標(biāo)準(zhǔn)件開刀。他們不是來修修補補的,而是問一個更根本的問題:這根柱子、這面墻、這套管道,到底是真承重,還是只因為一直在那兒所以沒人動?

    更有意思的是,五支施工隊去了不同的樓層。有的在樓體外墻動手,拆掉了那些只用來裝飾的預(yù)制板——那是推理端的精度和定制策略。有的鉆進設(shè)備層,重新鋪設(shè)了管線——那是訓(xùn)練目標(biāo)的參數(shù)化方式。還有的直接下到地下室,對著地基里的鋼筋動起了大錘——那是歸一化層和可逆性約束。把它們放在一起看,你會發(fā)現(xiàn)一條清晰的遞進線:深度學(xué)習(xí)的"標(biāo)準(zhǔn)件"正在從外圍到核心,被逐個拆掉。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    01

    從推理端開刀:精度和定制策略,不是必須的

    最先被質(zhì)疑的標(biāo)準(zhǔn)件,是那些看起來最"技術(shù)性"的,比如說,浮點精度的矩陣乘法,和針對不同架構(gòu)手工調(diào)參的量化策略。這些因為不涉及“模型為什么能work”的核心設(shè)計哲學(xué),看起來只是優(yōu)化效率、節(jié)省算力,所以最容易被人當(dāng)成“普通的工程優(yōu)化”。

    但 CVPR 2026 的這兩篇論文告訴我們,遠不止"模型可以更省"這么簡單。

    BinaryAttention:1-bit 注意力,比全精度還能打

    Transformer 的注意力模塊一直是算力黑洞。Query 和 Key 做矩陣乘法,計算量隨序列長度平方增長,在高分辨率視覺任務(wù)和多步擴散生成里尤其要命。普通工程優(yōu)化的邏輯:第一步是 FlashAttention,用 IO 優(yōu)化把訪存瓶頸拆掉;第二步是量化,把 FP32 壓成 INT8、INT4,低比特框架內(nèi),精度降了,但總算還能用。

    再往下壓,就要把 Q 和 K 壓成只有正負兩種狀態(tài)的 1-bit。這條路幾乎沒人敢走。直覺上太反常識了:一個連續(xù)實數(shù)變成一個正負號,信息損失那么大,注意力還能算對嗎?

    BinaryAttention 給出的答案是:不僅算得對,還能算得更快。

    這篇來自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的論文,首先從理論上論證了一個關(guān)鍵命題——注意力機制的核心邏輯是計算 Q 和 K 之間的相似度關(guān)系,而這個相似度關(guān)系在二值化之后依然能被有效保留。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    換句話說,"這兩個位置相關(guān)不相關(guān)"這件事,不需要精確到小數(shù)點后幾位,一個正負號就能捕捉到最核心的信息?;谶@個理論支撐,BinaryAttention 只保留 Q 和 K 的符號,將傳統(tǒng)浮點矩陣乘法替換為 XNOR 加 popcount 的位運算,從根本上改變了注意力的計算方式。

    當(dāng)然,1-bit 量化帶來的信息損失是客觀存在的。為了彌補這一點,論文引入了可學(xué)習(xí)的偏置項進行補償,同時采用量化感知訓(xùn)練讓模型學(xué)會"用 1-bit 思考",并用自蒸餾技術(shù)以全精度模型為教師,確保量化后的符號相似性與全精度保持一致。

    整個設(shè)計支持端到端的前向傳播加速,不需要額外的推理步驟。實驗結(jié)果令人意外:在 A100 GPU 上,BinaryAttention 比 FlashAttention2 快 2 倍以上,而在視覺和擴散 Transformer 的廣泛基準(zhǔn)測試中,1-bit 注意力不僅能維持精度,在部分任務(wù)上甚至超過了全精度版本。

    這篇論文打破了"低比特必然犧牲精度"的行業(yè)常識,把“量化”從一個工程壓縮問題,提升到了“重新發(fā)現(xiàn)計算本質(zhì)”的理論層面。

      • arXiv 論文頁面:https://arxiv.org/abs/2603.09582

      • 項目代碼倉庫:EdwardChasel/BinaryAttention

    SegQuant:量化不需要給每個模型單獨開藥方

    另一篇論文中,SegQuant 挑戰(zhàn)了另一個標(biāo)準(zhǔn)件:量化策略必須針對每個架構(gòu)手工定制。

    在深度學(xué)習(xí)領(lǐng)域,如果你要對一個模型做量化(比如把32位浮點數(shù)壓縮成8位或4位整數(shù)),那么你幾乎必須針對這個模型的具體架構(gòu),手工去調(diào)整量化參數(shù)(比如每一層的縮放因子、零點位置、位寬分配等)。不同架構(gòu)差異越大,手工調(diào)參的工作量就越重。

    而擴散模型這個領(lǐng)域,SDXL、DiT、PixArt等模型架構(gòu)變得非常多樣且差異巨大,讓這個問題雪上加霜。給一個模型調(diào)參之后,換個模型就得重新來一遍。更麻煩的是,這些方法通常依賴大量人工設(shè)定的啟發(fā)式規(guī)則,和主流工業(yè)部署工具也不兼容,想真正把量化塞進生產(chǎn)線,門檻極高。

    浙大 OptiSys 團隊提出的 SegQuant,核心思路是讓量化策略從模型的計算圖里自動"讀"出來,而不是靠人工拍腦袋。SegQuant 由兩個組件構(gòu)成:SegLinear 和 DualScale。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    SegLinear 是一種基于段的圖量化策略,它分析模型的靜態(tài)計算圖,自動捕獲線性層的語義結(jié)構(gòu),識別出哪些層功能類似、哪些層在空間分布上差異顯著,然后據(jù)此為不同層分配不同的量化配置。整個過程不需要手寫規(guī)則,完全由圖拓撲驅(qū)動。

    DualScale 則專門對付擴散模型量化里一個老大難問題:激活分布的極性不對稱。擴散模型中很多層的激活值正負兩側(cè)形狀差異極大,如果用同一套量化尺度去量,必然會有一側(cè)被嚴(yán)重失真。DualScale 用雙尺度分別校準(zhǔn)正負兩側(cè),專門保住視覺輸出的保真度。

    SegLinear 證明了量化配置可以從計算圖自動讀取,無需人工經(jīng)驗。DualScale揭示了傳統(tǒng)量化失效的根本原因是忽略了正負分布的獨立性,并提出了一個更合理的基本形式。

    SegQuant 的意義是第一次有人把擴散模型量化做成了一個真正跨架構(gòu)通用的框架,同一套方法適配 UNet 系和 DiT 系,無需為每個模型單獨調(diào)參。同時,論文從一開始就按工業(yè)部署的標(biāo)準(zhǔn)設(shè)計,與主流部署工具無縫兼容。這意味著 SegQuant 不是一篇只活在論文里的方法,而是可以直接推進到生產(chǎn)線上的工具。

      • arXiv 論文頁面:https://arxiv.org/abs/2507.14811

      • 項目代碼倉庫:https://github.com/OptiSys-ZJU/segquant

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    02

    訓(xùn)練目標(biāo)翻案:擴散模型,你根本沒在"去噪"

    推理端的標(biāo)準(zhǔn)件被拆掉之后,接下來被質(zhì)疑的,不再是怎么跑模型,而是模型的目標(biāo)本身到底對不對。而這一刀,切到了擴散模型最根本的訓(xùn)練范式上。

    JiT:預(yù)測噪聲還是預(yù)測干凈圖像?這個問題比你想的更重要

    擴散模型的名字里有"去噪"兩個字,但早期研究普遍選擇讓模型預(yù)測噪聲,而不是干凈圖像。在技術(shù)上,這兩種參數(shù)化是等價的,可以相互轉(zhuǎn)換,所以一直沒人深究:選哪個真的完全一樣嗎?

    Kaiming He 和 Tianhong Li 在這篇論文里指出:兩者在實際效果上并不等價,差異藏在流形幾何里。流形假設(shè)(Manifold Hypothesis)告訴我們,自然圖像分布在高維空間里的一個低維流形上。干凈圖像住在這個流形上,而加了噪聲的中間狀態(tài)則偏離了流形,是"飄出去"的。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    這意味著,當(dāng)模型的訓(xùn)練目標(biāo)是預(yù)測帶噪量時,它要在一個彌散的高維空間里工作,網(wǎng)絡(luò)容量不夠就會災(zāi)難性失?。欢绻繕?biāo)是預(yù)測干凈圖像,目標(biāo)始終在流形上,即便網(wǎng)絡(luò)容量有限也能有效建模。這不是工程細節(jié)的差異,而是數(shù)學(xué)本質(zhì)的差異,因為預(yù)測噪聲是在流形之外尋找一個彌散的目標(biāo),預(yù)測干凈圖像是在流形之上尋找一個結(jié)構(gòu)化的目標(biāo)。

    基于這個洞察,研究者提出了 JiT(Just image Transformers):直接用大 patch 的 Transformer 處理原始像素,訓(xùn)練目標(biāo)就是預(yù)測干凈圖像,損失函數(shù)只有簡單的 MSE。沒有 VAE 或 Tokenizer 做潛空間壓縮,沒有預(yù)訓(xùn)練權(quán)重,沒有額外的正則化損失。這是一種極簡化的設(shè)計方式。

    在 ImageNet 256 和 512 分辨率上,JiT 都取得了有競爭力的結(jié)果,尤其是 32×32 的大 patch 在 512 分辨率下依然表現(xiàn)良好,這打破了"高分辨率必須先壓縮到潛空間"的通行做法。

    JiT 的意義遠不止一組實驗數(shù)據(jù)。它真正動搖的是整個擴散模型的訓(xùn)練范式:過去幾年,從 LDM 到 DiT 到 SDXL,所有人都在沿著"先壓縮、再預(yù)測噪聲"的路線走,沒人意識到它可能是一個次優(yōu)解。而 JiT 告訴我們,這條路線的自然性是虛假的,雖然它是在數(shù)學(xué)上等價的,但在幾何上卻不是最優(yōu)的。

    更值得注意的是,JiT 的極簡設(shè)計本身就是一種論證:當(dāng)去掉 Tokenizer、去掉預(yù)訓(xùn)練、去掉復(fù)雜損失,模型依然能工作得很好,就引發(fā)了越來越多的質(zhì)疑:那些被加進來的組件,有多少是真正必要的,又有多少只是在為一個次優(yōu)的訓(xùn)練目標(biāo)做補償?

    如果說 BinaryAttention 和 SegQuant 是在推理端拆掉標(biāo)準(zhǔn)件,那 JiT 就是在訓(xùn)練目標(biāo)上翻案——它質(zhì)疑的不是"怎么做",而是"為什么這么做"。這個層次的質(zhì)疑,影響要比推理優(yōu)化深遠得多。而當(dāng)這種質(zhì)疑繼續(xù)往深處推進,就會觸及模型架構(gòu)最底層的那些"默認設(shè)置"。

      • arXiv 論文頁面:https://arxiv.org/abs/2511.13720

      • 項目代碼倉庫:https://github.com/LTH14/JiT

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    03

    架構(gòu)層的地基松動:歸一化層和可逆約束,都可以不要

    前面三篇論文說的是推理端和訓(xùn)練目標(biāo)的標(biāo)準(zhǔn)件,接下來要介紹的兩篇論文,則是在探討歸一化層和可逆性約束的標(biāo)準(zhǔn)件。歸一化層在Transformer里已存在近十年,被視為“必需品”;可逆性約束是歸一化流這個方向自始至終的核心約束。拆除歸一化層和可逆性約束,相當(dāng)于修改模型最底層的核心組件。

    BiFlow:精確可逆這個數(shù)學(xué)潔癖,可以扔了

    歸一化流(Normalizing Flow)生成模型中對數(shù)學(xué)性質(zhì)要求最嚴(yán)格的一類。

    它通過可逆變換在數(shù)據(jù)分布和先驗分布之間建立雙向映射,支持精確的對數(shù)似然估計,理論上非常漂亮。但這種優(yōu)雅是有代價的:嚴(yán)格的可逆性約束把網(wǎng)絡(luò)架構(gòu)的設(shè)計空間框死了,能用的變換類型極其有限。

    近年來 TARFlow 把 Transformer 和自回歸流結(jié)合,性能大幅提升,但自回歸的因果解碼天生是串行的,就造成了生成一張圖的情況下,token 一個一個出的局面。速度成了自回歸繞不開的硬傷。

    來自 Yiyang Lu、Qiao Sun 等人與 Kaiming He 合作的 BiFlow,提出了一個思路:逆函數(shù)不一定需要是精確的解析解。傳統(tǒng)歸一化流要求前向變換嚴(yán)格可逆,反向過程直接采用解析方法求逆。這一要求由“可逆性”這一名稱所定義,看起來是合理的。然而 BiFlow 指出,這一要求帶來的實際代價超過了其理論收益:它限制了架構(gòu)選擇,強制了因果解碼的串行推理,并使采樣速度成為性能的主要制約因素。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉
    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    該團隊的做法是同時學(xué)習(xí)兩個方向:前向模型將數(shù)據(jù)映射到噪聲,反向模型獨立學(xué)習(xí)一個近似逆映射。反向模型不再是前向變換的解析逆,而是一個自由參數(shù)化的神經(jīng)網(wǎng)絡(luò)——這意味著它可以使用雙向注意力而非因果注意力,實現(xiàn)完全并行的解碼。兩個方向獨立訓(xùn)練,反向模型不受可逆性約束,架構(gòu)選擇完全自由。

    BiFlow在 ImageNet 上的實驗結(jié)果是:生成質(zhì)量顯著提升,采樣速度比因果解碼方法快了兩個數(shù)量級,在歸一化流類方法中達到最優(yōu),與單次前向評估的方法相比也具有競爭力。

    這項研究重新定義了生成模型中“可逆”的含義:精確可逆是強約束,近似可逆是工程可行的折衷。放棄精確可逆,可提升架構(gòu)靈活性和計算效率。這與 JiT 的邏輯一致。JiT 表明預(yù)測噪聲和預(yù)測干凈圖像數(shù)學(xué)等價但幾何不等價;BiFlow 表明精確可逆與近似可逆數(shù)學(xué)不等價但效果接近。兩者都以實際有效性而非理論優(yōu)雅作為評價標(biāo)準(zhǔn)。

      • arXiv 論文頁面:https://arxiv.org/abs/2512.10953

      • 項目代碼倉庫:https://github.com/Lyy-iiis/BiFlow

    Derf:歸一化層不僅能替代,還能被打敗

    BiFlow 嘗試去除可逆性約束,而 Derf 則嘗試去除 Transformer 中最為基礎(chǔ)的歸一化層。LayerNorm 與 RMSNorm 在 Transformer 中被普遍視為必要組件,研究者主要關(guān)注參數(shù)調(diào)節(jié)而非是否使用。DyT(Dynamic Tanh)出現(xiàn),證明可以用一個簡單的逐點非線性函數(shù)替代歸一化層,訓(xùn)練同樣穩(wěn)定,性能持平,但 DyT 僅持平而未超越。

    Mingzhi Chen、Taiming Lu 等人的這篇論文,問的是更進一步的問題:既然可以用逐點函數(shù)替代歸一化層,那最優(yōu)的逐點函數(shù)是什么?作者首先從理論上研究了逐點函數(shù)的內(nèi)在特性如何影響訓(xùn)練動態(tài)和最終性能,然后基于理論發(fā)現(xiàn)開展了大規(guī)模的函數(shù)形式搜索。最終找到的答案是 Derf——一個基于誤差函數(shù)的極簡設(shè)計:Derf(x) = erf(αx + s),其中 erf 是高斯累積分布函數(shù),α 和 s 是可學(xué)習(xí)參數(shù)。這個設(shè)計形式極其簡潔,但效果驚人:在視覺識別、視覺生成、語音表示學(xué)習(xí)、DNA 序列建模等多個領(lǐng)域,Derf 全面優(yōu)于 LayerNorm、RMSNorm 和 DyT。

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    更值得注意的是論文對 Derf 性能來源的分析。通常人們會認為,一個更好的替代方案一定是因為擬合能力更強。但作者通過深入實驗發(fā)現(xiàn),Derf 的優(yōu)勢主要來自泛化能力的提升,而非擬合能力的增強。這個發(fā)現(xiàn)可能帶來一種暗示,即歸一化層之所以長期以來"不可替代",可能并不是因為它提供了某種不可取代的計算功能,而是因為它恰好提供了一種泛化性尚可的穩(wěn)定化手段。而當(dāng) Derf 用一種更簡潔的方式提供了更好的泛化性時,歸一化層的"不可替代性"就站不住腳了。

    Derf 的意義不只是一次函數(shù)替換。它真正觸及的問題是:歸一化層在 Transformer 里到底在干什么?多年來,人們用"穩(wěn)定訓(xùn)練"來解釋它的存在,但"穩(wěn)定訓(xùn)練"這個說法本身就含糊。Derf 可能給出了這樣的方向,至少在泛化性這個維度上,歸一化層并不是最優(yōu)答案。一個形式更簡潔、參數(shù)更少的逐點函數(shù),可以做得更好。

      • arXiv 論文頁面:https://arxiv.org/abs/2512.10938

      • 項目代碼倉庫:https://github.com/zlab-pku/Derf

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    04

    結(jié)語

    把五篇論文放在一起看,最值得關(guān)注的不是它們分別把某個指標(biāo)提高了多少,而是它們幾乎不約而同地指向同一件事:深度學(xué)習(xí)中那些被當(dāng)作"標(biāo)準(zhǔn)件"裝配進去的設(shè)計,遠沒有我們以為的那么不可動搖。

    BinaryAttention 證明了注意力的浮點精度不是必須的,1-bit 符號就夠了;SegQuant 證明了量化策略不需要給每個架構(gòu)單獨開藥方,計算圖自己就能推斷;JiT 證明了擴散模型"預(yù)測噪聲"的訓(xùn)練目標(biāo)不是最優(yōu)的,直接預(yù)測干凈圖像在幾何上更合理;BiFlow 證明了歸一化流的"精確可逆"是一種可以放手的奢侈品;Derf 證明了歸一化層不僅能被替代,還能被打敗。

    而且它們不是在同一層拆。從推理端的精度和定制化,到訓(xùn)練目標(biāo)的參數(shù)化方式,再到架構(gòu)層最底層的歸一化層和可逆約束,全部有所涉及。過去幾年的深度學(xué)習(xí)都是在追求規(guī)模化,要有更大的模型、更多的數(shù)據(jù)、更精細的調(diào)參,那么 CVPR 2026 的這一批工作,則是在探討一些根源問題:哪些墻是承重墻,哪些只是隔斷?哪些是必須的,哪些只是"一直都在所以以為必須"?

    答案正在變得越來越清晰:那些我們以為的承重墻,有不少只是隔斷。而拆掉它們之后,房子不但沒有塌,反而透進了更多的光。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    CVPR 2026:深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」,正在被逐個拆掉

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 极品美女自拍偷精品视频| 夜夜躁天天躁很很躁| 国产精品女同一区二区久| 日韩欧美第一页| 西西人体www大胆高清| 欧美性做爰片免费视频看| 国产成人AV| 国产精品美女黑丝流水| 亚洲精品中文字幕电影| 日本熟妇大屁股人妻| 欧美精品v国产精品v日韩精品 | 又黄又刺激又黄又舒服| 人妻熟人中文字幕一区二区| 一本久道热中字伊人| 日韩不卡在线观看视频不卡| 免费看一区无码无a片www| 亚洲成人资源| 中文字幕av无码不卡免费| 在线看av一区二区三区| 导航福利在线| 影音先锋资源| 久久亚洲精品中文字幕馆| 亚洲国产欧美一区二区好看电影| 国产精品原创巨作av无遮| 超碰?另类?国产| 亚洲一二三四五区中文字幕| 自拍偷拍亚洲免费视频| 国产精品无码久久久久| 92国产精品午夜福利免费| 久热综合在线亚洲精品| 精品无码人妻| 成人在线亚洲| 97精品超碰一区二区三区| 裸体一区二区三区av| 男女做爰真人视频直播| 久久―日本道色综合久久| www久久只有这里有精品| 久久婷婷五月综合色精品| 亚洲香蕉| 国产亚洲欧洲一区二区| 99精品欧美一区二区三区美图|