CVPR 2026：深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」，正在被逐個拆掉

本文作者：陳淑瑜

2026-05-29 17:39

專題：CVPR 計算機視覺與模式識別會議

導(dǎo)語：注意力的浮點精度不是必須的，歸一化流的"精確可逆"是可以放棄的……

CVPR 2026：深度學(xué)習(xí)的「標(biāo)準(zhǔn)件」，正在被逐個拆掉

注意力的浮點精度不是必須的，歸一化流的"精確可逆"是可以放棄的……

作者丨馬曉寧

編輯丨岑峰

這里有一幢大樓，叫做深度學(xué)習(xí)。

過去幾年，人們不停地給它加蓋、擴建，越蓋越高，越蓋越復(fù)雜。這幢大樓叫 Transformer。蓋樓時用了一大批標(biāo)準(zhǔn)件，浮點精度是它的鋼筋，層歸一化和殘差連接是它的混凝土，因果掩碼是它的承重隔斷。旁邊還有兩棟附樓：一棟是擴散模型；另一棟歸一化流。在漫長的施工期里，人們不斷加裝更粗的鋼筋、更復(fù)雜的控制系統(tǒng)，以為這樣做就能讓這幾棟樓更穩(wěn)固高大美觀。但是這樣真的是對的嗎？

可現(xiàn)在，這些施工的收益越來越小，而有人在附樓里試出了更好的新零件，量化、去噪、可逆約束都有了更輕便的替代品。于是，一批施工隊同時進場，對準(zhǔn)這些標(biāo)準(zhǔn)件開刀。他們不是來修修補補的，而是問一個更根本的問題：這根柱子、這面墻、這套管道，到底是真承重，還是只因為一直在那兒所以沒人動？

更有意思的是，五支施工隊去了不同的樓層。有的在樓體外墻動手，拆掉了那些只用來裝飾的預(yù)制板——那是推理端的精度和定制策略。有的鉆進設(shè)備層，重新鋪設(shè)了管線——那是訓(xùn)練目標(biāo)的參數(shù)化方式。還有的直接下到地下室，對著地基里的鋼筋動起了大錘——那是歸一化層和可逆性約束。把它們放在一起看，你會發(fā)現(xiàn)一條清晰的遞進線：深度學(xué)習(xí)的"標(biāo)準(zhǔn)件"正在從外圍到核心，被逐個拆掉。

從推理端開刀：精度和定制策略，不是必須的

最先被質(zhì)疑的標(biāo)準(zhǔn)件，是那些看起來最"技術(shù)性"的，比如說，浮點精度的矩陣乘法，和針對不同架構(gòu)手工調(diào)參的量化策略。這些因為不涉及“模型為什么能work”的核心設(shè)計哲學(xué)，看起來只是優(yōu)化效率、節(jié)省算力，所以最容易被人當(dāng)成“普通的工程優(yōu)化”。

但 CVPR 2026 的這兩篇論文告訴我們，遠不止"模型可以更省"這么簡單。

▎BinaryAttention：1-bit 注意力，比全精度還能打

Transformer 的注意力模塊一直是算力黑洞。Query 和 Key 做矩陣乘法，計算量隨序列長度平方增長，在高分辨率視覺任務(wù)和多步擴散生成里尤其要命。普通工程優(yōu)化的邏輯：第一步是 FlashAttention，用 IO 優(yōu)化把訪存瓶頸拆掉；第二步是量化，把 FP32 壓成 INT8、INT4，低比特框架內(nèi)，精度降了，但總算還能用。

再往下壓，就要把 Q 和 K 壓成只有正負兩種狀態(tài)的 1-bit。這條路幾乎沒人敢走。直覺上太反常識了：一個連續(xù)實數(shù)變成一個正負號，信息損失那么大，注意力還能算對嗎？

BinaryAttention 給出的答案是：不僅算得對，還能算得更快。

這篇來自 Chaodong Xiao、Zhengqiang Zhang 和 Lei Zhang 的論文，首先從理論上論證了一個關(guān)鍵命題——注意力機制的核心邏輯是計算 Q 和 K 之間的相似度關(guān)系，而這個相似度關(guān)系在二值化之后依然能被有效保留。

換句話說，"這兩個位置相關(guān)不相關(guān)"這件事，不需要精確到小數(shù)點后幾位，一個正負號就能捕捉到最核心的信息?；谶@個理論支撐，BinaryAttention 只保留 Q 和 K 的符號，將傳統(tǒng)浮點矩陣乘法替換為 XNOR 加 popcount 的位運算，從根本上改變了注意力的計算方式。

當(dāng)然，1-bit 量化帶來的信息損失是客觀存在的。為了彌補這一點，論文引入了可學(xué)習(xí)的偏置項進行補償，同時采用量化感知訓(xùn)練讓模型學(xué)會"用 1-bit 思考"，并用自蒸餾技術(shù)以全精度模型為教師，確保量化后的符號相似性與全精度保持一致。

整個設(shè)計支持端到端的前向傳播加速，不需要額外的推理步驟。實驗結(jié)果令人意外：在 A100 GPU 上，BinaryAttention 比 FlashAttention2 快 2 倍以上，而在視覺和擴散 Transformer 的廣泛基準(zhǔn)測試中，1-bit 注意力不僅能維持精度，在部分任務(wù)上甚至超過了全精度版本。

這篇論文打破了"低比特必然犧牲精度"的行業(yè)常識，把“量化”從一個工程壓縮問題，提升到了“重新發(fā)現(xiàn)計算本質(zhì)”的理論層面。

arXiv 論文頁面：https://arxiv.org/abs/2603.09582
項目代碼倉庫：EdwardChasel/BinaryAttention

▎SegQuant：量化不需要給每個模型單獨開藥方

另一篇論文中，SegQuant 挑戰(zhàn)了另一個標(biāo)準(zhǔn)件：量化策略必須針對每個架構(gòu)手工定制。

在深度學(xué)習(xí)領(lǐng)域，如果你要對一個模型做量化（比如把32位浮點數(shù)壓縮成8位或4位整數(shù)），那么你幾乎必須針對這個模型的具體架構(gòu)，手工去調(diào)整量化參數(shù)（比如每一層的縮放因子、零點位置、位寬分配等）。不同架構(gòu)差異越大，手工調(diào)參的工作量就越重。

而擴散模型這個領(lǐng)域，SDXL、DiT、PixArt等模型架構(gòu)變得非常多樣且差異巨大，讓這個問題雪上加霜。給一個模型調(diào)參之后，換個模型就得重新來一遍。更麻煩的是，這些方法通常依賴大量人工設(shè)定的啟發(fā)式規(guī)則，和主流工業(yè)部署工具也不兼容，想真正把量化塞進生產(chǎn)線，門檻極高。

浙大 OptiSys 團隊提出的 SegQuant，核心思路是讓量化策略從模型的計算圖里自動"讀"出來，而不是靠人工拍腦袋。SegQuant 由兩個組件構(gòu)成：SegLinear 和 DualScale。

SegLinear 是一種基于段的圖量化策略，它分析模型的靜態(tài)計算圖，自動捕獲線性層的語義結(jié)構(gòu)，識別出哪些層功能類似、哪些層在空間分布上差異顯著，然后據(jù)此為不同層分配不同的量化配置。整個過程不需要手寫規(guī)則，完全由圖拓撲驅(qū)動。

DualScale 則專門對付擴散模型量化里一個老大難問題：激活分布的極性不對稱。擴散模型中很多層的激活值正負兩側(cè)形狀差異極大，如果用同一套量化尺度去量，必然會有一側(cè)被嚴(yán)重失真。DualScale 用雙尺度分別校準(zhǔn)正負兩側(cè)，專門保住視覺輸出的保真度。

SegLinear 證明了量化配置可以從計算圖自動讀取，無需人工經(jīng)驗。DualScale揭示了傳統(tǒng)量化失效的根本原因是忽略了正負分布的獨立性，并提出了一個更合理的基本形式。

SegQuant 的意義是第一次有人把擴散模型量化做成了一個真正跨架構(gòu)通用的框架，同一套方法適配 UNet 系和 DiT 系，無需為每個模型單獨調(diào)參。同時，論文從一開始就按工業(yè)部署的標(biāo)準(zhǔn)設(shè)計，與主流部署工具無縫兼容。這意味著 SegQuant 不是一篇只活在論文里的方法，而是可以直接推進到生產(chǎn)線上的工具。

arXiv 論文頁面：https://arxiv.org/abs/2507.14811
項目代碼倉庫：https://github.com/OptiSys-ZJU/segquant

訓(xùn)練目標(biāo)翻案：擴散模型，你根本沒在"去噪"

推理端的標(biāo)準(zhǔn)件被拆掉之后，接下來被質(zhì)疑的，不再是怎么跑模型，而是模型的目標(biāo)本身到底對不對。而這一刀，切到了擴散模型最根本的訓(xùn)練范式上。

▎JiT：預(yù)測噪聲還是預(yù)測干凈圖像？這個問題比你想的更重要

擴散模型的名字里有"去噪"兩個字，但早期研究普遍選擇讓模型預(yù)測噪聲，而不是干凈圖像。在技術(shù)上，這兩種參數(shù)化是等價的，可以相互轉(zhuǎn)換，所以一直沒人深究：選哪個真的完全一樣嗎？

Kaiming He 和 Tianhong Li 在這篇論文里指出：兩者在實際效果上并不等價，差異藏在流形幾何里。流形假設(shè)（Manifold Hypothesis）告訴我們，自然圖像分布在高維空間里的一個低維流形上。干凈圖像住在這個流形上，而加了噪聲的中間狀態(tài)則偏離了流形，是"飄出去"的。

這意味著，當(dāng)模型的訓(xùn)練目標(biāo)是預(yù)測帶噪量時，它要在一個彌散的高維空間里工作，網(wǎng)絡(luò)容量不夠就會災(zāi)難性失?。欢绻繕?biāo)是預(yù)測干凈圖像，目標(biāo)始終在流形上，即便網(wǎng)絡(luò)容量有限也能有效建模。這不是工程細節(jié)的差異，而是數(shù)學(xué)本質(zhì)的差異，因為預(yù)測噪聲是在流形之外尋找一個彌散的目標(biāo)，預(yù)測干凈圖像是在流形之上尋找一個結(jié)構(gòu)化的目標(biāo)。

基于這個洞察，研究者提出了 JiT（Just image Transformers）：直接用大 patch 的 Transformer 處理原始像素，訓(xùn)練目標(biāo)就是預(yù)測干凈圖像，損失函數(shù)只有簡單的 MSE。沒有 VAE 或 Tokenizer 做潛空間壓縮，沒有預(yù)訓(xùn)練權(quán)重，沒有額外的正則化損失。這是一種極簡化的設(shè)計方式。

在 ImageNet 256 和 512 分辨率上，JiT 都取得了有競爭力的結(jié)果，尤其是 32×32 的大 patch 在 512 分辨率下依然表現(xiàn)良好，這打破了"高分辨率必須先壓縮到潛空間"的通行做法。

JiT 的意義遠不止一組實驗數(shù)據(jù)。它真正動搖的是整個擴散模型的訓(xùn)練范式：過去幾年，從 LDM 到 DiT 到 SDXL，所有人都在沿著"先壓縮、再預(yù)測噪聲"的路線走，沒人意識到它可能是一個次優(yōu)解。而 JiT 告訴我們，這條路線的自然性是虛假的，雖然它是在數(shù)學(xué)上等價的，但在幾何上卻不是最優(yōu)的。

更值得注意的是，JiT 的極簡設(shè)計本身就是一種論證：當(dāng)去掉 Tokenizer、去掉預(yù)訓(xùn)練、去掉復(fù)雜損失，模型依然能工作得很好，就引發(fā)了越來越多的質(zhì)疑：那些被加進來的組件，有多少是真正必要的，又有多少只是在為一個次優(yōu)的訓(xùn)練目標(biāo)做補償？

如果說 BinaryAttention 和 SegQuant 是在推理端拆掉標(biāo)準(zhǔn)件，那 JiT 就是在訓(xùn)練目標(biāo)上翻案——它質(zhì)疑的不是"怎么做"，而是"為什么這么做"。這個層次的質(zhì)疑，影響要比推理優(yōu)化深遠得多。而當(dāng)這種質(zhì)疑繼續(xù)往深處推進，就會觸及模型架構(gòu)最底層的那些"默認設(shè)置"。

arXiv 論文頁面：https://arxiv.org/abs/2511.13720
項目代碼倉庫：https://github.com/LTH14/JiT

架構(gòu)層的地基松動：歸一化層和可逆約束，都可以不要

前面三篇論文說的是推理端和訓(xùn)練目標(biāo)的標(biāo)準(zhǔn)件，接下來要介紹的兩篇論文，則是在探討歸一化層和可逆性約束的標(biāo)準(zhǔn)件。歸一化層在Transformer里已存在近十年，被視為“必需品”；可逆性約束是歸一化流這個方向自始至終的核心約束。拆除歸一化層和可逆性約束，相當(dāng)于修改模型最底層的核心組件。

▎BiFlow：精確可逆這個數(shù)學(xué)潔癖，可以扔了

歸一化流（Normalizing Flow）生成模型中對數(shù)學(xué)性質(zhì)要求最嚴(yán)格的一類。

它通過可逆變換在數(shù)據(jù)分布和先驗分布之間建立雙向映射，支持精確的對數(shù)似然估計，理論上非常漂亮。但這種優(yōu)雅是有代價的：嚴(yán)格的可逆性約束把網(wǎng)絡(luò)架構(gòu)的設(shè)計空間框死了，能用的變換類型極其有限。

近年來 TARFlow 把 Transformer 和自回歸流結(jié)合，性能大幅提升，但自回歸的因果解碼天生是串行的，就造成了生成一張圖的情況下，token 一個一個出的局面。速度成了自回歸繞不開的硬傷。

來自 Yiyang Lu、Qiao Sun 等人與 Kaiming He 合作的 BiFlow，提出了一個思路：逆函數(shù)不一定需要是精確的解析解。傳統(tǒng)歸一化流要求前向變換嚴(yán)格可逆，反向過程直接采用解析方法求逆。這一要求由“可逆性”這一名稱所定義，看起來是合理的。然而 BiFlow 指出，這一要求帶來的實際代價超過了其理論收益：它限制了架構(gòu)選擇，強制了因果解碼的串行推理，并使采樣速度成為性能的主要制約因素。

該團隊的做法是同時學(xué)習(xí)兩個方向：前向模型將數(shù)據(jù)映射到噪聲，反向模型獨立學(xué)習(xí)一個近似逆映射。反向模型不再是前向變換的解析逆，而是一個自由參數(shù)化的神經(jīng)網(wǎng)絡(luò)——這意味著它可以使用雙向注意力而非因果注意力，實現(xiàn)完全并行的解碼。兩個方向獨立訓(xùn)練，反向模型不受可逆性約束，架構(gòu)選擇完全自由。

BiFlow在 ImageNet 上的實驗結(jié)果是：生成質(zhì)量顯著提升，采樣速度比因果解碼方法快了兩個數(shù)量級，在歸一化流類方法中達到最優(yōu)，與單次前向評估的方法相比也具有競爭力。

這項研究重新定義了生成模型中“可逆”的含義：精確可逆是強約束，近似可逆是工程可行的折衷。放棄精確可逆，可提升架構(gòu)靈活性和計算效率。這與 JiT 的邏輯一致。JiT 表明預(yù)測噪聲和預(yù)測干凈圖像數(shù)學(xué)等價但幾何不等價；BiFlow 表明精確可逆與近似可逆數(shù)學(xué)不等價但效果接近。兩者都以實際有效性而非理論優(yōu)雅作為評價標(biāo)準(zhǔn)。

arXiv 論文頁面：https://arxiv.org/abs/2512.10953
項目代碼倉庫：https://github.com/Lyy-iiis/BiFlow

▎Derf：歸一化層不僅能替代，還能被打敗

BiFlow 嘗試去除可逆性約束，而 Derf 則嘗試去除 Transformer 中最為基礎(chǔ)的歸一化層。LayerNorm 與 RMSNorm 在 Transformer 中被普遍視為必要組件，研究者主要關(guān)注參數(shù)調(diào)節(jié)而非是否使用。DyT（Dynamic Tanh）出現(xiàn)，證明可以用一個簡單的逐點非線性函數(shù)替代歸一化層，訓(xùn)練同樣穩(wěn)定，性能持平，但 DyT 僅持平而未超越。

Mingzhi Chen、Taiming Lu 等人的這篇論文，問的是更進一步的問題：既然可以用逐點函數(shù)替代歸一化層，那最優(yōu)的逐點函數(shù)是什么？作者首先從理論上研究了逐點函數(shù)的內(nèi)在特性如何影響訓(xùn)練動態(tài)和最終性能，然后基于理論發(fā)現(xiàn)開展了大規(guī)模的函數(shù)形式搜索。最終找到的答案是 Derf——一個基于誤差函數(shù)的極簡設(shè)計：Derf(x) = erf(αx + s)，其中 erf 是高斯累積分布函數(shù)，α 和 s 是可學(xué)習(xí)參數(shù)。這個設(shè)計形式極其簡潔，但效果驚人：在視覺識別、視覺生成、語音表示學(xué)習(xí)、DNA 序列建模等多個領(lǐng)域，Derf 全面優(yōu)于 LayerNorm、RMSNorm 和 DyT。

更值得注意的是論文對 Derf 性能來源的分析。通常人們會認為，一個更好的替代方案一定是因為擬合能力更強。但作者通過深入實驗發(fā)現(xiàn)，Derf 的優(yōu)勢主要來自泛化能力的提升，而非擬合能力的增強。這個發(fā)現(xiàn)可能帶來一種暗示，即歸一化層之所以長期以來"不可替代"，可能并不是因為它提供了某種不可取代的計算功能，而是因為它恰好提供了一種泛化性尚可的穩(wěn)定化手段。而當(dāng) Derf 用一種更簡潔的方式提供了更好的泛化性時，歸一化層的"不可替代性"就站不住腳了。

Derf 的意義不只是一次函數(shù)替換。它真正觸及的問題是：歸一化層在 Transformer 里到底在干什么？多年來，人們用"穩(wěn)定訓(xùn)練"來解釋它的存在，但"穩(wěn)定訓(xùn)練"這個說法本身就含糊。Derf 可能給出了這樣的方向，至少在泛化性這個維度上，歸一化層并不是最優(yōu)答案。一個形式更簡潔、參數(shù)更少的逐點函數(shù)，可以做得更好。

arXiv 論文頁面：https://arxiv.org/abs/2512.10938
項目代碼倉庫：https://github.com/zlab-pku/Derf

結(jié)語

把五篇論文放在一起看，最值得關(guān)注的不是它們分別把某個指標(biāo)提高了多少，而是它們幾乎不約而同地指向同一件事：深度學(xué)習(xí)中那些被當(dāng)作"標(biāo)準(zhǔn)件"裝配進去的設(shè)計，遠沒有我們以為的那么不可動搖。

BinaryAttention 證明了注意力的浮點精度不是必須的，1-bit 符號就夠了；SegQuant 證明了量化策略不需要給每個架構(gòu)單獨開藥方，計算圖自己就能推斷；JiT 證明了擴散模型"預(yù)測噪聲"的訓(xùn)練目標(biāo)不是最優(yōu)的，直接預(yù)測干凈圖像在幾何上更合理；BiFlow 證明了歸一化流的"精確可逆"是一種可以放手的奢侈品；Derf 證明了歸一化層不僅能被替代，還能被打敗。

而且它們不是在同一層拆。從推理端的精度和定制化，到訓(xùn)練目標(biāo)的參數(shù)化方式，再到架構(gòu)層最底層的歸一化層和可逆約束，全部有所涉及。過去幾年的深度學(xué)習(xí)都是在追求規(guī)模化，要有更大的模型、更多的數(shù)據(jù)、更精細的調(diào)參，那么 CVPR 2026 的這一批工作，則是在探討一些根源問題：哪些墻是承重墻，哪些只是隔斷？哪些是必須的，哪些只是"一直都在所以以為必須"？

答案正在變得越來越清晰：那些我們以為的承重墻，有不少只是隔斷。而拆掉它們之后，房子不但沒有塌，反而透進了更多的光。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。