0
| 本文作者: 新智駕 | 2026-04-21 21:34 | 專題:特斯拉:純視覺智駕+極致效率,特斯拉的技術(shù)路線與制造哲學(xué) |
2021年5月,特斯拉做了一個(gè)讓整個(gè)汽車行業(yè)目瞪口呆的決定:從新車配置中徹底移除毫米波雷達(dá)。在此之前,幾乎所有的L2級(jí)輔助駕駛系統(tǒng)都至少配備三種傳感器——攝像頭、毫米波雷達(dá)和超聲波雷達(dá)——再加上部分車型額外搭載的激光雷達(dá)。而特斯拉說:不玩了,以后只用攝像頭。
這不是一個(gè)臨時(shí)性的成本削減決策。從那之后的每一款新車型(Model S/X的改款版、新款Model 3/Y),特斯拉都在堅(jiān)定地執(zhí)行這條路線。甚至在2024年推出的HW4.0硬件平臺(tái)上,雖然預(yù)留了高分辨率成像雷達(dá)(Phoenix)的物理接口,但絕大多數(shù)交付車輛依然沒有安裝任何形式的非視覺傳感器。
一家擁有全球最豐富自動(dòng)駕駛數(shù)據(jù)的公司,選擇了一條與行業(yè)主流完全相反的技術(shù)路徑。 當(dāng)華為乾崑、小鵬XNGP、理想AD Max、蔚來NOP+等系統(tǒng)紛紛采用激光雷達(dá)作為核心感知器件時(shí),特斯拉卻在做減法。
這個(gè)選擇的底氣來自哪里?代價(jià)又是什么?
要理解特斯拉為什么要走純視覺路線,得先理解它對(duì)自動(dòng)駕駛問題本質(zhì)的定義。
在特斯拉的技術(shù)哲學(xué)中,自動(dòng)駕駛的核心挑戰(zhàn)不是"如何感知環(huán)境",而是"如何讓機(jī)器像人類一樣理解和應(yīng)對(duì)駕駛場(chǎng)景"。而人類的駕駛行為完全依賴視覺信息——眼睛接收光信號(hào),大腦處理圖像并做出決策,手腳執(zhí)行操控動(dòng)作。中間沒有誰在用激光測(cè)距儀確認(rèn)前車距離,也沒有誰在用毫米波雷達(dá)穿透雨幕探測(cè)障礙物。
既然人類可以僅靠視覺安全駕駛,那理論上機(jī)器也應(yīng)該能做到——只要它的"眼睛"夠好、"大腦"夠強(qiáng)。這就是純視覺路線的第一性原理出發(fā)點(diǎn)。
基于這個(gè)起點(diǎn),特斯拉推導(dǎo)出了一個(gè)被稱為"數(shù)據(jù)一致性原則"的核心論斷:
訓(xùn)練數(shù)據(jù)必須和推理環(huán)境使用相同的輸入模態(tài)。
換句話說,如果模型是用攝像頭采集的視頻數(shù)據(jù)訓(xùn)練出來的,那它在實(shí)際運(yùn)行時(shí)也應(yīng)該只依賴攝像頭輸入。如果訓(xùn)練時(shí)用的是純視覺數(shù)據(jù)但運(yùn)行時(shí)加入了激光雷達(dá)的點(diǎn)云數(shù)據(jù),就引入了"模態(tài)gap"——模型從未在訓(xùn)練階段學(xué)習(xí)過如何融合兩種不同性質(zhì)的數(shù)據(jù)流,強(qiáng)行融合的結(jié)果往往不是"1+1>2",而是互相干擾。
這個(gè)原則看似簡(jiǎn)單,但在工程實(shí)踐中有著深遠(yuǎn)的影響。它意味著特斯拉不需要維護(hù)一套復(fù)雜的多傳感器融合算法——不需要處理攝像頭和激光雷達(dá)之間的時(shí)空同步問題,不需要解決不同傳感器在相同場(chǎng)景下輸出矛盾結(jié)果時(shí)的仲裁邏輯,也不需要為每種新增的傳感器類型重新設(shè)計(jì)整個(gè)感知系統(tǒng)的架構(gòu)。
少一種傳感器,就意味著少一層系統(tǒng)復(fù)雜度,少一類潛在故障點(diǎn),少一大塊需要調(diào)試和維護(hù)的代碼。 在一個(gè)已經(jīng)足夠復(fù)雜的系統(tǒng)工程中,這種簡(jiǎn)化本身就是一種競(jìng)爭(zhēng)力。
如果停留在傳統(tǒng)規(guī)則驅(qū)動(dòng)的時(shí)代,純視覺方案可能永遠(yuǎn)無法達(dá)到令人滿意的水平。因?yàn)閭鹘y(tǒng)的感知-規(guī)劃-控制分層架構(gòu)中,視覺算法負(fù)責(zé)的只是"看到什么"這一步——把像素轉(zhuǎn)換成"前方有一輛車在50米處"這樣的結(jié)構(gòu)化描述。然后由后續(xù)的規(guī)劃模塊根據(jù)這些描述來決定怎么開。
問題是,從原始圖像到結(jié)構(gòu)化描述的過程中會(huì)丟失大量信息。一張包含復(fù)雜路口、多個(gè)交通參與者、變化光照條件的圖像,經(jīng)過感知模塊處理后可能只剩下幾十個(gè)檢測(cè)框和幾張語義分割圖。那些微妙但關(guān)鍵的細(xì)節(jié)——比如對(duì)面司機(jī)的眼神是否注意到你、路邊行人是否有橫穿的意圖、前方車輛剎車燈亮起的時(shí)機(jī)——全部被丟棄了。
FSD V12帶來的端到端變革從根本上改變了這個(gè)邏輯鏈條。神經(jīng)網(wǎng)絡(luò)不再被要求輸出"前面有一輛車"這樣的人類可讀結(jié)論,而是直接輸出"方向盤左轉(zhuǎn)15度、減速到45km/h"這樣的操控指令。中間沒有任何信息壓縮環(huán)節(jié)——原始視頻幀直接映射為駕駛動(dòng)作。
這對(duì)純視覺路線的意義是革命性的。因?yàn)槎说蕉四P筒恍枰斯ざx"什么是重要的特征",它會(huì)自己從海量數(shù)據(jù)中學(xué)習(xí)哪些視覺線索與安全的駕駛行為相關(guān)聯(lián)。也許模型發(fā)現(xiàn)前方車輛輪胎的微小偏轉(zhuǎn)角度是判斷其即將變道的關(guān)鍵依據(jù)——這種細(xì)微的視覺特征在傳統(tǒng)架構(gòu)中根本不會(huì)被感知模塊提取出來,但在端到端模型里可以被自動(dòng)捕捉并利用。
換句話說,端到端技術(shù)讓攝像頭的潛力被釋放到了前所未有的程度。它不再是"只能看到輪廓的模糊眼睛",而是變成了能夠捕捉極細(xì)粒度視覺信息的"超分辨率感知器官"。這解釋了為什么FSD V12之后純視覺方案的體驗(yàn)出現(xiàn)了質(zhì)的飛躍——不是因?yàn)閿z像頭硬件變好了多少,而是因?yàn)?quot;看"這些畫面的"大腦"發(fā)生了代際升級(jí)。
截至2026年初的數(shù)據(jù),F(xiàn)SD累計(jì)行駛里程已突破16億英里(約25.7億公里)。每一天都有海量的新駕駛場(chǎng)景數(shù)據(jù)被回傳到特斯拉的超算中心用于模型迭代。這種數(shù)據(jù)飛輪一旦轉(zhuǎn)起來就會(huì)不斷加速——更好的模型帶來更少的接管、更多的里程積累、更多樣化的場(chǎng)景覆蓋、進(jìn)而訓(xùn)練出更好的模型。純視覺路線的上限正在被這條飛輪持續(xù)推高。
然而,堅(jiān)持純視覺路線并不意味著沒有代價(jià)。事實(shí)上,特斯拉在這條路上遇到的挑戰(zhàn)比任何采用多傳感器的同行都要尖銳和具體。
第一個(gè)挑戰(zhàn)是惡劣天氣下的性能衰減。
攝像頭的工作原理是通過接收物體反射或發(fā)射的光線來成像。這意味著它本質(zhì)上是一種被動(dòng)式傳感器——依賴外部光源條件。在大雨天,雨滴會(huì)在鏡頭上形成水膜導(dǎo)致圖像模糊;在濃霧天,懸浮顆粒物散射光線使能見度急劇下降;在強(qiáng)逆光場(chǎng)景下(比如日出或日落時(shí)正對(duì)著太陽行駛),動(dòng)態(tài)范圍不足會(huì)導(dǎo)致畫面大面積過曝或欠曝。
相比之下,激光雷達(dá)主動(dòng)發(fā)射激光束并測(cè)量反射回來的時(shí)間來構(gòu)建三維點(diǎn)云,不受外界光線條件影響。毫米波雷達(dá)使用無線電波,可以輕松穿透雨霧和灰塵。這兩種傳感器在惡劣天氣下提供的冗余感知能力,是純視覺方案目前難以企及的。
特斯拉的應(yīng)對(duì)策略包括:在攝像頭鏡片上增加加熱元件防止起霧結(jié)冰、噴涂特殊的疏水涂層加速雨水滑落、以及通過算法層面利用時(shí)序信息(連續(xù)多幀畫面)來彌補(bǔ)單幀質(zhì)量的下降。這些措施能在一定程度上緩解問題,但從物理原理上看,純視覺在極端天氣下的天花板確實(shí)低于多傳感融合方案。
第二個(gè)挑戰(zhàn)是深度估計(jì)的精度瓶頸。
雖然雙目立體視覺可以通過左右兩個(gè)攝像頭的視差來計(jì)算物體的距離,但這種方法的精度受到基線長(zhǎng)度(兩個(gè)攝像頭之間的距離)和分辨率的共同限制。在近距離內(nèi)(10米以內(nèi))雙目視覺的測(cè)距精度尚可接受,但隨著距離增加誤差呈非線性增長(zhǎng)——一輛在80米外的車,雙目系統(tǒng)給出的距離估計(jì)可能有數(shù)米的偏差。而在高速公路以120km/h行駛時(shí),幾米的測(cè)距誤差足以影響跟車距離的安全余量。
激光雷達(dá)的優(yōu)勢(shì)在于它能直接提供厘米級(jí)精度的絕對(duì)深度信息,不存在"推算距離"這個(gè)步驟——每個(gè)點(diǎn)都帶著精確的三維坐標(biāo)。這也是為什么大多數(shù)追求高可靠性的自動(dòng)駕駛系統(tǒng)都將激光雷達(dá)作為核心傳感器的根本原因。
特斯拉在這個(gè)問題上的策略是:不追求絕對(duì)精確的測(cè)距,而是通過大量的駕駛數(shù)據(jù)教會(huì)模型建立"看起來多大≈大概多遠(yuǎn)"的直覺性判斷。這種方法在大多數(shù)日常場(chǎng)景下工作得很好,但在一些邊緣情況下(比如前方是一輛外形異常的異形車或者堆滿貨物的卡車)可能出現(xiàn)嚴(yán)重誤判。FSD V13在實(shí)際測(cè)試中被記錄到的"怒闖紅燈"事件,很可能就與深度估計(jì)偏差有關(guān)。
第三個(gè)挑戰(zhàn)是長(zhǎng)尾場(chǎng)景的無限性。
自動(dòng)駕駛最難的從來不是在空曠的高速公路上保持車道,而是處理那些教科書里不會(huì)寫的極端情況:一只狗突然從兩輛停著的車之間竄出;前方車輛掉落了一個(gè)不規(guī)則形狀的貨物;施工路段的錐桶排列方式不符合任何標(biāo)準(zhǔn)模式;一個(gè)穿著深色衣服的人在夜間無路燈的路口過馬路……
對(duì)于多傳感器融合系統(tǒng)來說,激光雷達(dá)可以在低光照甚至零光照條件下提供可靠的物體檢測(cè)能力,毫米波雷達(dá)可以發(fā)現(xiàn)被遮擋的目標(biāo)。多種傳感器的組合大大降低了漏檢的概率。而對(duì)于純視覺系統(tǒng)來說,所有這些情況的處理壓力全部壓在了攝像頭的感知能力和模型的泛化能力上。任何一個(gè)場(chǎng)景的訓(xùn)練數(shù)據(jù)不足,都可能導(dǎo)致系統(tǒng)在該場(chǎng)景下的表現(xiàn)失常。
特斯拉的答案是:用數(shù)據(jù)量對(duì)抗場(chǎng)景多樣性。16億英里的行駛里程意味著FSD已經(jīng)"見過"了數(shù)量驚人的罕見場(chǎng)景。但"見過"不等于"學(xué)會(huì)處理"——模型能否正確響應(yīng)取決于該場(chǎng)景在訓(xùn)練數(shù)據(jù)中的占比和標(biāo)注質(zhì)量。對(duì)于真正的長(zhǎng)尾場(chǎng)景(發(fā)生概率低于百萬分之一的極端情況),無論積累多少里程都可能存在覆蓋盲區(qū)。
把視角拉高,純視覺和多傳感融合之爭(zhēng)其實(shí)反映了自動(dòng)駕駛領(lǐng)域的一個(gè)根本性方法論分歧:應(yīng)該追求系統(tǒng)的極致簡(jiǎn)潔,還是追求信息的充分冗余?
站在特斯拉這邊的是一群信仰"奧卡姆剃刀"原則的工程師。他們的論證是:每增加一種傳感器就增加了一層融合算法的復(fù)雜度,增加了校準(zhǔn)和維護(hù)的成本,增加了一個(gè)潛在的失效點(diǎn)。而且不同傳感器之間的數(shù)據(jù)沖突如何裁決本身就是一個(gè)未完全解決的學(xué)術(shù)問題。既然如此,為什么不集中所有資源把一條路做到極致?
站在另一邊的是華為、理想、蔚來等部分中國(guó)頭部智駕團(tuán)隊(duì)。他們的邏輯同樣自洽:自動(dòng)駕駛首先是一個(gè)安全問題。在任何情況下都不應(yīng)該把所有雞蛋放在一個(gè)籃子里——尤其是當(dāng)這個(gè)籃子的物理特性決定了它在某些條件下必然會(huì)出現(xiàn)性能波動(dòng)的時(shí)候。多花幾千塊錢裝一個(gè)激光雷達(dá)換來的是在暴雨濃霧天也能正常工作的安全保障這筆賬怎么算都是劃算的。
有趣的是,這兩派之間并不是絕對(duì)的敵對(duì)關(guān)系。行業(yè)內(nèi)已經(jīng)出現(xiàn)了一些融合跡象:
部分原本堅(jiān)持純視覺的公司開始在某些高端車型上重新考慮激光雷達(dá)的選配方案。而一些重度依賴激光雷達(dá)的系統(tǒng)也在嘗試減少對(duì)其的依賴程度——比如在高速NOA場(chǎng)景下主要依靠視覺和毫米波雷達(dá),只在城區(qū)復(fù)雜場(chǎng)景才激活激光雷達(dá)的全功率運(yùn)行模式。
這種趨同暗示了一個(gè)可能性:純視覺和多傳感融合或許不是非此即彼的對(duì)立選項(xiàng),而是不同發(fā)展階段的最優(yōu)解。 在算力有限、算法不夠成熟的時(shí)代,多傳感器冗余是保證安全的必要手段。而當(dāng)端到端大模型的感知能力突破某個(gè)臨界點(diǎn)后,單一傳感器的方案可能在成本和效率上展現(xiàn)出更大優(yōu)勢(shì)。這個(gè)臨界點(diǎn)在哪里目前還沒有人能給出確切答案,但它大概率會(huì)在未來三到五年內(nèi)出現(xiàn)——AI5芯片上車和FSD入華后的市場(chǎng)反饋將提供最重要的參照坐標(biāo)。
特斯拉為什么堅(jiān)持不用激光雷達(dá)?
答案不是一個(gè)簡(jiǎn)單的"省錢"或"馬斯克固執(zhí)"。它是基于第一性原理推導(dǎo)出的技術(shù)判斷——如果端到端大模型能讓攝像頭的感知潛力充分發(fā)揮出來,那純視覺不僅在理論上是可行的,而且在工程實(shí)踐上可能是最優(yōu)解。但目前這個(gè)"如果"還沒有被完全證實(shí)。純視覺路線已經(jīng)證明了它在大多數(shù)場(chǎng)景下可以做得相當(dāng)好,但它還沒有證明自己在所有場(chǎng)景下都能做到足夠好。
這條路的終局還未揭曉。但有一件事是確定的:特斯拉的堅(jiān)持迫使整個(gè)行業(yè)重新思考一個(gè)問題——我們到底需要多少種傳感器才能實(shí)現(xiàn)安全的自動(dòng)駕駛?這個(gè)問題的答案,可能會(huì)重塑未來十年智能駕駛產(chǎn)業(yè)的競(jìng)爭(zhēng)格局。
(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))新智駕北京車展2026專題)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。