數(shù)據(jù)流架構(gòu)贏過馮·諾依曼？理想馬赫100的2560 TOPS從哪里來？

本文作者：新智駕

2026-04-21 21:34

導(dǎo)語：

ISCA是與MICRO、HPCA并列的體系結(jié)構(gòu)"三大頂會(huì)"之一，工業(yè)賽道論文錄用率常年低于20%。一篇論文能說明什么？在AI芯片行業(yè)，學(xué)術(shù)發(fā)表往往是技術(shù)路線的"宣戰(zhàn)書"——它意味著理想不再滿足于做芯片的"使用者"，而是要成為芯片架構(gòu)的"定義者"。

但學(xué)術(shù)認(rèn)可和商業(yè)成功之間，隔著一道深淵。馬赫100最引發(fā)爭(zhēng)議的問題只有一個(gè)：2560 TOPS的算力，到底有多少是真正能用的？

峰值算力輸了，但"有效算力"贏了？

馬赫100最讓人困惑的一組數(shù)據(jù)是這樣的：?jiǎn)晤w芯片的峰值算力是1280 TOPS，兩顆并聯(lián)2560 TOPS。而英偉達(dá)Thor-U單顆就能做到2000 TOPS——峰值算力上，馬赫100并不占優(yōu)。

但理想拋出了一個(gè)新概念："有效算力"。按照理想的測(cè)算，在自研算法場(chǎng)景下，馬赫100單顆的有效算力是通用芯片方案的3倍，雙顆并聯(lián)達(dá)到5-6倍。換句話說，在理想自家的算法體系里，1280 TOPS的馬赫100跑出來的效果，可能等同于甚至超過2000 TOPS的英偉達(dá)芯片。

這個(gè)說法乍一聽像是"我跑分低但我游戲幀數(shù)高"，但在技術(shù)層面并非沒有道理。

傳統(tǒng)車載智駕芯片沿用馮·諾依曼架構(gòu)，數(shù)據(jù)需要從內(nèi)存加載到緩存，再進(jìn)入計(jì)算單元處理，處理完寫回緩存，再送入下一級(jí)。這個(gè)過程里，計(jì)算單元有大量時(shí)間在等數(shù)據(jù)搬運(yùn)——就像一個(gè)工廠里，每個(gè)車間做完零件都得先放倉庫，下一個(gè)車間再去倉庫取，中間的等待時(shí)間全是浪費(fèi)。馬赫100的數(shù)據(jù)流架構(gòu)核心思路就是讓數(shù)據(jù)在計(jì)算單元之間"直接流動(dòng)"，省掉倉儲(chǔ)中轉(zhuǎn)的環(huán)節(jié)。

理想官方給出的數(shù)據(jù)是：相比通用芯片方案，馬赫100在理想自研算法上性能提升200%，功耗降低40%。200%的性能提升是一個(gè)令人印象深刻的數(shù)字，但關(guān)鍵問題在于——這是在什么條件下測(cè)出來的？使用的什么模型、什么輸入規(guī)模、什么功耗天花板？截至2026年4月，理想沒有公開完整的測(cè)試白皮書。這也是為什么業(yè)界對(duì)這組數(shù)據(jù)的態(tài)度從驚嘆轉(zhuǎn)向?qū)徤鳎簲?shù)字本身沒問題，但缺少第三方驗(yàn)證的場(chǎng)景數(shù)據(jù)，就像一個(gè)學(xué)生說自己的學(xué)習(xí)方法效率是別人的3倍——聽起來很厲害，但沒有統(tǒng)考成績(jī)佐證。

數(shù)據(jù)流架構(gòu)：一場(chǎng)"反叛"傳統(tǒng)芯片學(xué)的押注

馬赫100選擇的技術(shù)路線，學(xué)術(shù)上叫"Orchestrated Dataflow Architecture"。這條路線不是理想首創(chuàng)——英國(guó)芯片公司Graphcore早在2016年就用數(shù)據(jù)流架構(gòu)做AI加速器，但Graphcore在2022年被軟銀收購后逐漸淡出主流視野。將數(shù)據(jù)流架構(gòu)落地到車規(guī)級(jí)芯片并推進(jìn)到量產(chǎn)階段，理想是第一家。

這不是一個(gè)安全的選擇。數(shù)據(jù)流架構(gòu)與傳統(tǒng)GPGPU架構(gòu)之間存在三個(gè)根本性差異，每一個(gè)差異都意味著巨大的工程風(fēng)險(xiǎn)。

第一，去緩存設(shè)計(jì)。GPGPU依賴多級(jí)緩存（L1/L2/L3）來橋接計(jì)算單元和內(nèi)存之間的速度差距，緩存訪問占據(jù)了芯片相當(dāng)大的功耗和面積預(yù)算。數(shù)據(jù)流架構(gòu)通過在計(jì)算單元之間建立直接數(shù)據(jù)通道來減少緩存依賴——邏輯上很優(yōu)雅，但工程上意味著整個(gè)芯片的物理設(shè)計(jì)、時(shí)序分析和功耗管理都要推倒重來。

第二，算法定義數(shù)據(jù)流。傳統(tǒng)芯片的硬件結(jié)構(gòu)是固定的，算法要適配硬件；馬赫100反過來，讓編譯器根據(jù)算法的計(jì)算圖自動(dòng)編排數(shù)據(jù)流動(dòng)路徑。這種"以算法為中心"的設(shè)計(jì)要求芯片團(tuán)隊(duì)和算法團(tuán)隊(duì)深度耦合——理想CTO謝炎說過，"芯片團(tuán)隊(duì)需要構(gòu)建從底層硬件到上層算法的全棧能力"。這句話的潛臺(tái)詞是：馬赫100不是一顆通用芯片，它是一顆為理想自家算法量身定制的芯片。這在短期內(nèi)是優(yōu)勢(shì)，長(zhǎng)期看也可能是枷鎖。

第三，完全可編程。數(shù)據(jù)流架構(gòu)不同于固定功能的ASIC——ASIC一旦流片就很難修改計(jì)算邏輯，而馬赫100保持了完全可編程的能力。這在AI算法快速迭代的當(dāng)下是關(guān)鍵優(yōu)勢(shì)：三年前沒人預(yù)測(cè)到VLA模型會(huì)取代傳統(tǒng)感知-規(guī)劃-控制架構(gòu)，三年后誰知道主流算法又會(huì)長(zhǎng)什么樣。可編程性意味著馬赫100有更大的"適應(yīng)窗口"，但代價(jià)是編譯器的復(fù)雜度大幅上升。

六顆芯片的全球競(jìng)賽

把馬赫100放進(jìn)全球智駕芯片的坐標(biāo)系，格局變得更有意思。

特斯拉AI5走的是最激進(jìn)路線——3nm制程（推測(cè)），固定ASIC設(shè)計(jì)，算力高達(dá)約2500 TOPS，但不可編程，算法迭代需要重新流片。小鵬圖靈芯片5nm制程，單顆750 TOPS但三顆并聯(lián)達(dá)到2250 TOPS，已量產(chǎn)上車。蔚來神璣NX9031同樣5nm，但算力數(shù)據(jù)尚未公開，雙顆配置，預(yù)計(jì)2026年量產(chǎn)。英偉達(dá)Thor是" benchmark"，5nm制程，單顆2000 TOPS，GPGPU架構(gòu)，CUDA生態(tài)護(hù)城河無人能及。華為MDC 610制程略遜一籌（7nm），單顆400 TOPS在紙面上遠(yuǎn)低于競(jìng)品，但問界M9的智駕體驗(yàn)依然處于行業(yè)第一梯隊(duì)——這是對(duì)"峰值算力不等于實(shí)際體驗(yàn)"最有力的注解。

馬赫100在這個(gè)陣營(yíng)里的位置很特殊：峰值算力不是最高的（單顆1280 TOPS），制程不是最先進(jìn)的（5nm，僅次于特斯拉的3nm），但它是唯一采用數(shù)據(jù)流架構(gòu)的，也是唯一在ISCA發(fā)表過架構(gòu)設(shè)計(jì)論文的。這個(gè)獨(dú)特性既是差異化優(yōu)勢(shì)，也是風(fēng)險(xiǎn)來源——如果數(shù)據(jù)流架構(gòu)的車載表現(xiàn)不及預(yù)期，馬赫100就只剩下"還不錯(cuò)"的峰值算力，競(jìng)爭(zhēng)力將大打折扣。

值得玩味的是車企自研芯片的量產(chǎn)時(shí)間線：英偉達(dá)Thor最早（2025年），特斯拉AI5和小鵬圖靈已經(jīng)量產(chǎn)，理想馬赫100和蔚來神璣都瞄準(zhǔn)2026年。這意味著馬赫100在交付時(shí)面對(duì)的不是一個(gè)空白市場(chǎng)，而是一個(gè)已經(jīng)被對(duì)手教育過的市場(chǎng)——消費(fèi)者和媒體已經(jīng)有了對(duì)比基準(zhǔn)，"理論優(yōu)勢(shì)"必須有"實(shí)測(cè)數(shù)據(jù)"來支撐。

一個(gè)經(jīng)常被忽視的細(xì)節(jié)是功率預(yù)算。2560 TOPS的雙芯配置在5nm制程下的功耗是多少？理想沒有公開這個(gè)數(shù)字，但可以參考一個(gè)大致量級(jí)：英偉達(dá)Thor在5nm制程下功耗約為100W，2000 TOPS；如果馬赫100的數(shù)據(jù)流架構(gòu)確實(shí)能降低40%功耗（理想官方數(shù)據(jù)），那么1280 TOPS單顆的功耗可能在40-50W左右，雙芯約80-100W。這個(gè)功耗水平在車載域控器的散熱方案中是可控的，但也意味著"有效算力3倍"的宣稱需要在嚴(yán)格的功耗約束下成立，否則就只是"跑滿功耗時(shí)更強(qiáng)"的另一種說法。

另一個(gè)維度是成本。兩顆馬赫100的BOM成本 vs 一顆英偉達(dá)Thor——這個(gè)數(shù)字理想不會(huì)公開，但行業(yè)常識(shí)是：自研芯片在初期量產(chǎn)階段的單顆成本通常高于采購成熟供應(yīng)商的方案，因?yàn)榱髌M(fèi)用、掩膜成本和良率爬坡都會(huì)推高均攤成本。馬赫100只有在大規(guī)模鋪貨后（理想全系車型搭載+可能的對(duì)外授權(quán)），才有機(jī)會(huì)把單顆成本壓到比采購Thor更低的水平。在此之前，自研芯片更像是一種"用利潤(rùn)換戰(zhàn)略自主權(quán)"的投資。

編譯器：藏在2560 TOPS背后的隱形戰(zhàn)場(chǎng)

馬赫100的算力承諾有一個(gè)前提條件：算法必須在馬赫100的編譯器上完成適配和優(yōu)化。這個(gè)前提條件，恰恰是整場(chǎng)賭局里最難的部分。

英偉達(dá)之所以在AI芯片領(lǐng)域一家獨(dú)大，CUDA平臺(tái)是真正的護(hù)城河。400萬開發(fā)者，近20年的軟件積累，PyTorch、TensorFlow、ONNX等主流框架的原生支持——算法工程師幾乎可以零成本地把模型部署到英偉達(dá)GPU上。換到馬赫100上，同樣的模型需要經(jīng)過編譯器的轉(zhuǎn)換和優(yōu)化，適配數(shù)據(jù)流的計(jì)算拓?fù)洌@個(gè)過程的復(fù)雜度和工程量遠(yuǎn)超外界想象。

理想需要構(gòu)建自己的"馬赫CUDA"。數(shù)據(jù)流架構(gòu)的編譯器要完成兩項(xiàng)工作：把通用AI模型（如PyTorch訓(xùn)練的Transformer或VLA模型）轉(zhuǎn)換為數(shù)據(jù)流計(jì)算圖，然后根據(jù)馬赫100的硬件拓?fù)鋬?yōu)化數(shù)據(jù)流動(dòng)路徑。每換一種新的算法架構(gòu)，編譯器可能都需要相應(yīng)的適配。

這實(shí)際上是一個(gè)經(jīng)典的"雞和蛋"問題：算法團(tuán)隊(duì)需要編譯器成熟才能高效部署模型，編譯器團(tuán)隊(duì)需要大量算法實(shí)踐才能打磨成熟度。理想內(nèi)部是否有足夠的芯片架構(gòu)和編譯器人才來同時(shí)推進(jìn)這兩條線，是一個(gè)值得關(guān)注的變量。

理想選擇將架構(gòu)設(shè)計(jì)論文發(fā)表到ISCA，可能不只是為了學(xué)術(shù)榮譽(yù)。在芯片架構(gòu)和編譯器領(lǐng)域，頂尖人才高度集中在學(xué)術(shù)界和頭部科技公司。一篇ISCA論文是最好的招聘廣告——它向全球的體系結(jié)構(gòu)研究者釋放了一個(gè)信號(hào)：理想有足夠深的技術(shù)積累，值得你來。

編譯器生態(tài)的另一個(gè)挑戰(zhàn)是第三方模型的適配。理想的VLA基座模型當(dāng)然可以在馬赫100上做到最優(yōu)，但智駕系統(tǒng)不僅需要自研模型，還需要調(diào)用大量開源模型和第三方工具鏈——比如BEV感知中的常見backbone、占用網(wǎng)絡(luò)的standard implementations、端到端規(guī)劃中的reference models。這些模型當(dāng)初都是為英偉達(dá)GPU設(shè)計(jì)和優(yōu)化的，要在馬赫100上跑出同樣甚至更好的效果，編譯器的兼容性和優(yōu)化能力是關(guān)鍵瓶頸。

一個(gè)可能的解法是"混合架構(gòu)"——用英偉達(dá)芯片處理通用AI任務(wù)（如座艙交互、第三方模型推理），用馬赫100專注處理理想自研的端到端智駕和VLA模型。這樣既保留了英偉達(dá)的生態(tài)優(yōu)勢(shì)，又發(fā)揮了馬赫100的架構(gòu)優(yōu)勢(shì)。但這種方案會(huì)增加系統(tǒng)的復(fù)雜度和BOM成本，而且需要兩套并行的軟件開發(fā)工具鏈。理想是否在走這條路，目前沒有公開信息，但這是一個(gè)值得關(guān)注的工程方向。

從芯片到機(jī)器人：馬赫100的終局?jǐn)⑹?/h3>
如果只把馬赫100看作一顆智駕芯片，會(huì)低估理想的技術(shù)布局。

理想CTO謝炎的表述很明確：馬赫100不是單純的智駕芯片，而是一個(gè)通用的AI計(jì)算平臺(tái)。它需要支持的不僅是自動(dòng)駕駛，還包括座艙AI交互、機(jī)器人運(yùn)動(dòng)控制，以及未來可能的家庭智能體。從這個(gè)角度看，數(shù)據(jù)流架構(gòu)的選擇就有了更清晰的邏輯——不同場(chǎng)景的AI任務(wù)需要不同的計(jì)算模式，可編程的數(shù)據(jù)流架構(gòu)比固定ASIC更能適應(yīng)多場(chǎng)景需求。

更值得關(guān)注的是"算力復(fù)用"的可能性。理想投資斜躍智能布局家庭機(jī)器人，VLA大模型既能在車上驅(qū)動(dòng)自動(dòng)駕駛，也能在機(jī)器人上驅(qū)動(dòng)運(yùn)動(dòng)控制。馬赫100如果同時(shí)服務(wù)于車和機(jī)器人兩個(gè)場(chǎng)景，每顆芯片的研發(fā)成本就可以在更大規(guī)模上攤薄——就像亞馬遜的AWS云服務(wù)，最初只是為了支撐自家的電商業(yè)務(wù)，后來卻成了公司最大的利潤(rùn)來源之一。

但"算力復(fù)用"說起來容易做起來難。車和機(jī)器人的AI任務(wù)在幾個(gè)關(guān)鍵維度上存在差異：車需要處理高速運(yùn)動(dòng)場(chǎng)景（120km/h以上的感知和決策頻率），機(jī)器人需要處理精細(xì)操作場(chǎng)景（抓取、折疊等毫米級(jí)精度控制）；車的工作環(huán)境相對(duì)結(jié)構(gòu)化（道路、車道線、交通標(biāo)志），機(jī)器人的工作環(huán)境高度非結(jié)構(gòu)化（家庭廚房、客廳里的各種雜亂物體）；車的安全要求由L1-L5的法規(guī)框架界定，機(jī)器人的安全要求目前還沒有統(tǒng)一的行業(yè)標(biāo)準(zhǔn)。這些差異意味著馬赫100需要在架構(gòu)設(shè)計(jì)上留出足夠的彈性空間，才能同時(shí)適配兩個(gè)截然不同的應(yīng)用場(chǎng)景。

按照理想的規(guī)劃，2027年將推出馬赫200芯片，算力目標(biāo)突破3000 TOPS，支持L4級(jí)自動(dòng)駕駛。從100到200的演進(jìn)，核心不在于制程和算力的堆疊，而在于數(shù)據(jù)流架構(gòu)的成熟度和編譯器生態(tài)的完善度。如果馬赫100在2026年的量產(chǎn)驗(yàn)證中能兌現(xiàn)"有效算力"的承諾，馬赫200的推進(jìn)就有了技術(shù)基礎(chǔ)；如果兌現(xiàn)不了，整個(gè)路線的可信度都會(huì)受到質(zhì)疑。

一個(gè)值得思考的問題是：如果馬赫100的表現(xiàn)達(dá)到預(yù)期，理想是否會(huì)把芯片方案對(duì)外授權(quán)給其他車企？蔚來已經(jīng)明確表示不會(huì)對(duì)外輸出神璣芯片，特斯拉更是封閉生態(tài)的典范。但理想在戰(zhàn)略上一直有"平臺(tái)化"思維——從增程技術(shù)到座艙系統(tǒng)，理想傾向于把自研技術(shù)變成可以規(guī)模化的平臺(tái)能力。如果馬赫100證明了數(shù)據(jù)流架構(gòu)在車載場(chǎng)景下的優(yōu)勢(shì)，對(duì)外授權(quán)不僅能帶來直接收入，還能讓更多的算法團(tuán)隊(duì)在馬赫平臺(tái)上開發(fā)，加速編譯器生態(tài)的成熟。當(dāng)然，這個(gè)遠(yuǎn)景距離現(xiàn)在還遠(yuǎn)，但方向是明確的。

三個(gè)信號(hào)

馬赫100的故事里，藏著三個(gè)值得關(guān)注的行業(yè)信號(hào)。

第一，"有效算力"正在成為智駕芯片的新戰(zhàn)場(chǎng)。峰值算力的軍備競(jìng)賽已經(jīng)接近天花板——當(dāng)單顆芯片的算力突破2000 TOPS，數(shù)字本身的震撼力在遞減。下一個(gè)競(jìng)爭(zhēng)維度是"同樣峰值下，誰的效率更高"，這恰好是數(shù)據(jù)流架構(gòu)聲稱擅長(zhǎng)的領(lǐng)域。無論馬赫100最終表現(xiàn)如何，"有效算力"這個(gè)概念已經(jīng)被推到了行業(yè)討論的中心。

第二，車企正在從芯片的"使用者"變成"定義者"。在Mobileye和英偉達(dá)主導(dǎo)的時(shí)代，車企對(duì)芯片架構(gòu)幾乎沒有話語權(quán)。如今特斯拉、小鵬、蔚來、理想四家都推出了自研芯片，芯片競(jìng)爭(zhēng)正在從芯片公司之間的較量擴(kuò)展到車企之間的較量。ISCA收錄理想論文的意義不僅在于學(xué)術(shù)榮譽(yù)，更在于它標(biāo)志著車企自研芯片進(jìn)入了"接受學(xué)術(shù)同行評(píng)審"的新階段。

第三，芯片正在成為車企AI戰(zhàn)略的"錨點(diǎn)"。理想All in AI的戰(zhàn)略轉(zhuǎn)向，需要一個(gè)強(qiáng)有力的技術(shù)抓手來落地。馬赫100就是這個(gè)抓手——它既服務(wù)于當(dāng)前的自動(dòng)駕駛和座艙AI，也連接著未來的具身智能和機(jī)器人業(yè)務(wù)。一顆芯片能不能同時(shí)承載這么多期待？2026年Q2，L9 Livis交付之時(shí)，答案將會(huì)揭曉。在那之前，馬赫100既是理想技術(shù)野心的展示窗口，也是一場(chǎng)關(guān)于"有效算力"的行業(yè)級(jí)實(shí)驗(yàn)。

（雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))新智駕北京車展2026專題）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

專題

理想：All in AI重新定義自己

本專題其他文章

新智駕

編輯

發(fā)私信

當(dāng)月熱門文章