• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了

    導(dǎo)語:?Waymo 提出 Sensor2Sensor ,用 4D Gaussian Splatting 先把自家自動駕駛?cè)罩句秩境伞靶熊囉涗泝x視角”,再訓(xùn)練擴(kuò)散模型把

    來源:公眾號“Hyman的雜貨鋪”

    原文鏈接:https://mp.weixin.qq.com/s/LU5ldsQhD0EcIcOy0ynOtw


    街上每天都有海量行車記錄儀、手機(jī)拍攝、 ADAS 車輛視頻。里面藏著很多自動駕駛系統(tǒng)最想要的東西:事故前幾秒、夜間低能見度、奇怪并線、突發(fā)施工、行人橫穿、車輛擦碰。這些場景真實發(fā)生過,物理過程也可信。

    難點在另一個地方:自動駕駛系統(tǒng)不能直接吃這些視頻。

    一段普通行車記錄儀視頻通常只有一個前視單目視角,沒有車輛頂部多路相機(jī),沒有環(huán)視覆蓋,沒有 LiDAR 點云,也沒有目標(biāo)車隊對應(yīng)的傳感器標(biāo)定。對一套依賴多相機(jī)和 LiDAR 的 ADS 來說,它像一段“看得見但用不上”的素材。

    Sensor2Sensor 把問題改成了傳感器轉(zhuǎn)換:輸入是野外來源的單目駕駛視頻,輸出是目標(biāo)自動駕駛平臺格式下的多視角相機(jī)畫面和 LiDAR 點云。它的核心動作,是把真實視頻重新投到目標(biāo)車的傳感器坐標(biāo)系里,讓一段外部單目視頻變成內(nèi)部系統(tǒng)能讀取的多傳感器日志。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    Sensor2Sensor 的目標(biāo):把手機(jī)、行車記錄儀、互聯(lián)網(wǎng)駕駛視頻等單目來源,轉(zhuǎn)換成目標(biāo)自動駕駛車輛的多相機(jī)與 LiDAR 日志。

    為什么這件事值得看


    自動駕駛數(shù)據(jù)一直有兩個互相拉扯的目標(biāo)。

    一邊是自有車隊采集的數(shù)據(jù)。它質(zhì)量高,傳感器完整,有精確標(biāo)定,能直接進(jìn)入訓(xùn)練、驗證、仿真流程。但它貴,覆蓋有限,尤其是長尾事件很難靠車隊自然“等”出來。

    另一邊是開放世界里的第三方視頻。規(guī)模極大,內(nèi)容豐富,而且天然偏向長尾,因為日常平穩(wěn)駕駛不會被頻繁上傳,異常事件反而更容易被記錄下來。但這類視頻缺少結(jié)構(gòu)化傳感器信息,很難被自動駕駛系統(tǒng)當(dāng)作正式驗證數(shù)據(jù)。

    論文把這個矛盾概括為 embodiment gap ,也就是“載體差異”。同一個真實世界事件,發(fā)生在某個攝像頭視角里;而你的 ADS 需要的是另一輛車、另一套相機(jī)、另一套 LiDAR 、另一組標(biāo)定下的傳感器觀測。這類差異遠(yuǎn)遠(yuǎn)超過風(fēng)格遷移,同時包含視角、幾何、模態(tài)和時間一致性。

    我的理解是, Sensor2Sensor 的價值落在一個非常具體的工程瓶頸上:怎么把外部真實長尾視頻變成內(nèi)部可消費的 AV log 。

    訓(xùn)練數(shù)據(jù)怎么來:先反向造“配對樣本”


    最大的問題是沒有配對數(shù)據(jù)。

    如果要訓(xùn)練一個模型,把“行車記錄儀視頻”變成“目標(biāo)自動駕駛?cè)罩尽保硐胗?xùn)練集應(yīng)該長這樣:同一時刻、同一場景,既有第三方行車記錄儀視角,又有目標(biāo)自動駕駛車的 8 路相機(jī)和 LiDAR 。現(xiàn)實中這種配對幾乎不存在。

    論文的做法很工程:從已有 AV logs 出發(fā),先用 4D Gaussian Splatting 重建動態(tài)駕駛場景,再從這個重建場景里渲染出各種“模擬第三方攝像頭”。這樣就得到一對訓(xùn)練樣本:模擬行車記錄儀視角作為輸入,原始 AV 多傳感器日志作為監(jiān)督輸出。

    這一步里, 4DGS 更像一個幾何老師:它負(fù)責(zé)把已有多相機(jī)和 LiDAR 觀測整理成可重渲染的 4D 場景,為后續(xù)模型提供時間同步、空間對齊的訓(xùn)練對。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    配對數(shù)據(jù)生成流程:先從 8 路相機(jī)重建 4DGS ,再渲染不同型號和安裝位置的第三方攝像頭視角。

    論文使用約 10 萬個 10 秒駕駛片段做 4DGS 重建。每個片段包含 360 度多視角相機(jī)數(shù)據(jù)和 LiDAR 數(shù)據(jù), LiDAR 可用于初始化和約束 3D Gaussian 的幾何。動態(tài)物體會通過規(guī)范物體模型做累積,以提升車輛、行人等移動對象的覆蓋。

    隨后,系統(tǒng)采樣第三方攝像頭的內(nèi)參和外參。

    ?內(nèi)參方面,采樣焦距、主點、畸變系數(shù),用來模擬低成本廣角鏡頭、魚眼效果和不同 dashcam 光學(xué)配置。
    ?外參方面,采樣相對車體的 6 自由度位姿,覆蓋不同車型、安裝高度、前后位置、偏航、俯仰和滾轉(zhuǎn)誤差。
    ?渲染階段還考慮曝光補(bǔ)償、 gamma 校正等光照歸一化,讓合成 dashcam 更接近真實野外視頻。

    補(bǔ)充材料里提到,轎車場景下攝像頭高度會在 1.1 到 1.3 米附近采樣,前向平移在 2.0 到 2.5 米區(qū)間內(nèi)變化,焦距還會加入約 5% 的均勻擾動。這些細(xì)節(jié)讓“合成第三方攝像頭”具備真實安裝和鏡頭差異,而非簡單換一個視角。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    補(bǔ)充材料展示的 4DGS 合成 dashcam :不同攝像頭參數(shù)會產(chǎn)生不同視角、畸變和安裝效果。

    模型怎么做:一個輸入視角,生成 8 路相機(jī)和 LiDAR


    Sensor2Sensor 的生成模型基于 Latent Diffusion 。它要同時輸出兩類東西:目標(biāo)車輛的多視角相機(jī)圖像,以及同一時刻的 LiDAR 點云。

    論文把相機(jī)和 LiDAR 分開編碼,再在擴(kuò)散 U-Net 內(nèi)部做跨視角、跨傳感器融合。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    Sensor2Sensor 架構(gòu):相機(jī)和 LiDAR 各自有 VAE 與 U-Net 分支,通過跨視角注意力和跨傳感器注意力保持一致。

    多視角相機(jī)生成

    相機(jī)分支繼承了多視角擴(kuò)散模型的思路。它學(xué)習(xí)的是所有目標(biāo)視角的聯(lián)合分布,而非逐個孤立生成每個相機(jī)。為了讓 8 路相機(jī)之間保持一致,模型把普通 2D attention 換成 3D attention :既在空間維度上看圖像內(nèi)容,也在視角維度上交換信息。

    相機(jī)位姿通過 raymap 注入。 Raymap 可以理解為每個像素對應(yīng)的一條 3D 射線,包含射線起點和方向。模型看到的不只是“生成一張圖”,還知道這張圖對應(yīng)車輛上哪個相機(jī)、朝哪里看、內(nèi)外參是什么。

    第三方 dashcam 輸入會作為第 9 個視角加入模型。它的 latent 、 raymap 和二值 mask 會一起拼到視角維度里。這個 mask 告訴模型:這一視角是已知條件,不參與噪聲還原;另外 8 個目標(biāo)視角才是要生成的結(jié)果。

    這會影響模型理解輸入的方式。通道拼接容易把 dashcam 壓成普通特征圖;視角拼接則明確告訴模型:這是一臺真實存在的已知相機(jī),可以通過跨視角注意力與目標(biāo)相機(jī)互動。

    LiDAR 生成

    LiDAR 點云沒有直接作為無序點集生成,而是轉(zhuǎn)成 range-view spin image 。論文使用一個形狀為高度、寬度、通道的張量表示 LiDAR ,其中 4 個通道分別是:距離、反射強(qiáng)度、 elongation 和有效性 mask 。

    距離會被截斷到 150 米并線性歸一化到 0 到 1 ,強(qiáng)度和 elongation 也做歸一化。這樣 LiDAR 可以更自然地進(jìn)入 2D 生成模型。

    LiDAR 分支有獨立 VAE 。編碼器和解碼器都是卷積結(jié)構(gòu),訓(xùn)練目標(biāo)包括距離、 elongation 、強(qiáng)度的 L1 重建,有效性 mask 的二元交叉熵,以及法線、 elongation 、強(qiáng)度、有效性上的 LPIPS 感知損失,再加 KL 正則。這里不必糾結(jié)每個損失項的公式,核心意思是:模型既要還原數(shù)值,也要讓點云轉(zhuǎn)換成圖像表示后在結(jié)構(gòu)和感知上更接近真實 LiDAR 。

    跨傳感器注意力

    相機(jī)和 LiDAR 分支如果完全分開訓(xùn)練,很容易出現(xiàn)圖像里有車、點云里沒車,或者點云障礙物位置和圖像對不上。論文在每個 U-Net block 里加入 cross-sensor attention 。

    做法是把相機(jī)特征 token 和 LiDAR 特征 token 拉平后拼到同一個序列里,再做 self-attention 。這樣圖像和 LiDAR 的特征能在去噪過程中互相引用。對自動駕駛來說,這一步比單純提升視覺效果更有意義,因為下游感知和仿真系統(tǒng)需要跨模態(tài)一致的世界,而非兩份各自看起來不錯的數(shù)據(jù)。

    視頻怎么保持穩(wěn)定: DAgger 用在自回歸生成上


    單幀能生成還不夠。真實 driving log 是一段連續(xù)傳感器序列。

    論文把模型擴(kuò)展為自回歸視頻生成:當(dāng)前時刻的第三方視頻幀,加上上一時刻自己生成的相機(jī)和 LiDAR ,一起作為條件,生成當(dāng)前時刻的 8 路相機(jī)和 LiDAR 。

    問題也隨之出現(xiàn):訓(xùn)練時模型常常看到真實上一幀,推理時卻只能看到自己上一幀生成的結(jié)果。小錯誤會沿時間累積,最后變成閃爍、漂移、幾何錯位。

    論文借用了 DAgger 思路來縮小訓(xùn)練和推理差異。訓(xùn)練流程分為四步:

    1.先訓(xùn)練單幀條件生成模型。
    2.再加入上一幀相機(jī)與 LiDAR latent 的條件,做前幀條件微調(diào)。
    3.用模型自己滾動生成一批帶誤差的 rollout 數(shù)據(jù)。
    4.再用這些模型生成的歷史狀態(tài)繼續(xù)微調(diào),讓模型學(xué)會在自己的錯誤上下文里恢復(fù)。

    補(bǔ)充材料給出的實現(xiàn)細(xì)節(jié)是:訓(xùn)練使用 128 個 TPU , AdamW 優(yōu)化器,學(xué)習(xí)率 5e-5 ,全局梯度裁剪為 1.0 , EMA 衰減為 0.999 。三個主要階段分別訓(xùn)練 8 萬、 4 萬和 2 萬步,模型參數(shù)規(guī)模約 2.5 億。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    視頻 rollout 對比: DAgger 訓(xùn)練能減少時間展開過程中的閃爍和漂移,前視畫面更穩(wěn)定。

    實驗設(shè)置:論文自己搭了一個新評測


    因為“單目第三方視頻到完整 AV sensor suite”這個任務(wù)此前沒有標(biāo)準(zhǔn)數(shù)據(jù)集,論文自建了兩個評測部分。

    第一部分是 1000 段配對的 Fixed-Camera-to-AV log ,每段 3 秒。輸入相機(jī)固定在自動駕駛車前左保險杠附近,目標(biāo)輸出是車頂 8 路環(huán)視相機(jī)和 LiDAR 。因為這一路輸入與目標(biāo)傳感器同步且標(biāo)定已知,所以能做 PSNR 、 SSIM 、 LPIPS 、 FID 、 FVD 、 Chamfer Distance 等定量比較。

    第二部分是 in-the-wild 數(shù)據(jù),包括手工采集的真實 dashcam 、互聯(lián)網(wǎng)上的駕駛視頻、手機(jī)錄制視頻和其他 ADAS 來源,用于觀察模型面對未知相機(jī)、未知天氣、未知場景內(nèi)容時的泛化能力。

    基線方面,論文改造了幾類方法: VGGT 和 π3 代表前饋 3D 重建路線; X-Drive 代表圖像和 LiDAR 聯(lián)合生成路線; CAT3D 相關(guān)變體用于比較輸入條件的通道拼接和視角拼接。

    結(jié)果一:多視角圖像生成明顯領(lǐng)先


    在 Fixed-Camera-to-AV 多視角圖像生成任務(wù)上, Sensor2Sensor 的 FID 為 6.47 , LPIPS 為 0.316 ,優(yōu)于 VGGT 、π3 、 X-Drive 和不使用視角拼接的變體。

    方法
    FID↓
    PSNR↑
    LPIPS↓
    VGGT
    250.93
    14.73
    0.491
    π3
    246.27
    14.93
    0.458
    X-Drive
    8.30
    18.61
    0.345
    無 VC 變體
    6.88
    18.69
    0.346
    Sensor2Sensor
    6.47
    19.06
    0.316

    視覺上, Sensor2Sensor 生成的多視角畫面更清晰,對車輛形狀、場景結(jié)構(gòu)、被遮擋區(qū)域補(bǔ)全更穩(wěn)。重建類模型在未觀察區(qū)域容易出現(xiàn)空洞或幾何變形;生成類基線雖然圖像更像真實,但多視角結(jié)構(gòu)和對象一致性仍弱一些。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    圖像生成對比: Sensor2Sensor 更接近真實目標(biāo)視角,基線方法更容易出現(xiàn)模糊、形狀錯誤或未觀察區(qū)域生成失敗。

    補(bǔ)充材料進(jìn)一步展示了不同車輛位置和顏色下的圖像生成。可以看到,模型并非只把前視輸入復(fù)制到周圍視角,而是在推斷車輛周邊結(jié)構(gòu)、目標(biāo)車身形狀和遮擋區(qū)域。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    補(bǔ)充圖像結(jié)果:在多車前方場景中, Sensor2Sensor 對車輛形狀和顏色的保持更穩(wěn)定。
    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    更多圖像結(jié)果:面對傾斜車輛、迎面車輛等輸入,模型仍能生成較一致的目標(biāo)視角。

    結(jié)果二:視頻 FVD 從兩千級降到兩百級


    視頻生成任務(wù)只比較前視生成視頻,因為 VGGT 和 π3 在其他視角會出現(xiàn)大面積空洞。 Sensor2Sensor 的 FVD 為 278.12 ,不使用視角拼接的變體是 293.73 ,π3 和 VGGT 分別達(dá)到 2007.35 和 2373.15 。

    方法
    FVD↓
    PSNR↑
    LPIPS↓
    VGGT
    2373.15
    14.73
    0.491
    π3
    2007.35
    14.93
    0.458
    無 VC 變體
    293.73
    22.07
    0.204
    Sensor2Sensor
    278.12
    22.42
    0.186

    對自動駕駛?cè)罩緛碚f,漂亮的單幀還不夠。連續(xù) 3 秒、 10 秒甚至更長時間里,同一輛車不能忽大忽小,路沿和車道線也不能來回漂。自動駕駛感知模型通常會利用連續(xù)幀做跟蹤、速度估計、軌跡預(yù)測;一旦合成視頻里同一輛車每隔幾幀變形一次,或者路邊靜態(tài)物體抖動,下游驗證就會失真。

    論文的消融也顯示, DAgger 微調(diào)把前視 FVD 從 288.90 降到 278.12 , FID 從 24.65 降到 21.54 。提升幅度不夸張,但方向很明確:讓模型提前適應(yīng)自己的生成歷史,會讓 rollout 更穩(wěn)。

    結(jié)果三: LiDAR 是核心輸出


    Sensor2Sensor 的一個亮點是它同時生成 LiDAR ,圖像和點云共同構(gòu)成目標(biāo)日志。

    LiDAR 定量指標(biāo)使用 Chamfer Distance 。相比 X-Drive 的 10.02 , Sensor2Sensor 達(dá)到 8.68 ,改善 13.37%。視覺上,它對近處車輛、卡車輪廓、道路周邊靜態(tài)結(jié)構(gòu)的點云更干凈,噪聲更少,強(qiáng)度渲染也更合理。

    方法
    Chamfer↓
    改善
    X-Drive
    10.02
    Sensor2Sensor
    8.68
    13.37%
    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    LiDAR 對比: Sensor2Sensor 對卡車形狀和周圍物體的點云更穩(wěn)定,噪聲和強(qiáng)度錯誤更少。

    更值得看的是圖像和 LiDAR 的一致性。論文展示了圖像里出現(xiàn)的標(biāo)志牌、道路標(biāo)線、車輛,在 LiDAR 結(jié)果里也能對應(yīng)到合理的空間結(jié)構(gòu)。這對仿真環(huán)境很關(guān)鍵,因為下游模型不會只看一張 RGB 圖,它會把多傳感器信息融合起來判斷世界。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    圖像與 LiDAR 聯(lián)合生成:生成的點云與相機(jī)視角中的車輛、路面標(biāo)志和交通元素保持空間對齊。

    補(bǔ)充材料里的 LiDAR 樣例更密集,能看到模型在多個輸入場景下都傾向于生成更清晰的幾何輪廓。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    補(bǔ)充 LiDAR 結(jié)果:相比基線, Sensor2Sensor 輸出點云的噪聲更少,空間關(guān)系保留更好。
    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    補(bǔ)充跨模態(tài)一致性結(jié)果:圖像中的幾何細(xì)節(jié)能在生成 LiDAR 中得到對應(yīng)。

    結(jié)果四:野外視頻上,人類評測偏好很明顯


    Sensor2Sensor 最核心的目標(biāo)是利用野外數(shù)據(jù),所以論文專門測試了互聯(lián)網(wǎng)駕駛視頻、真實 dashcam 、手機(jī)錄像和其他 ADAS 片段。場景包含夜間低可見度、近碰撞、事故和 active incidents 。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    野外視頻泛化:模型把事故、夜間、低能見度等單目輸入轉(zhuǎn)換成完整多傳感器日志。

    人類評測由 26 名參與者完成,他們對 40 組、每組三個方法的生成結(jié)果做排序,評價維度是真實感和與輸入對齊程度。

    數(shù)據(jù)
    圖像 Top
    LiDARTop
    對比 X-Drive
    Dashcam
    83.46%
    68.08%
    圖像 94.62%
    Internet
    84.62%
    58.46%
    圖像 95.38%

    LiDAR 的偏好率低于圖像,但仍明顯領(lǐng)先。我的判斷是, LiDAR 偏好率低一些反而更接近真實難度:單目視頻只給了前方紋理和少量運動線索,模型要補(bǔ)的是車輛側(cè)后方、遮擋區(qū)域和深度結(jié)構(gòu),這已經(jīng)越過了普通視頻翻譯任務(wù)的邊界。模型能做到多數(shù)情況下更真實、更對齊,說明 4DGS 配對數(shù)據(jù)和跨傳感器注意力確實在發(fā)揮作用。

    消融:視角拼接和聯(lián)合訓(xùn)練各自貢獻(xiàn)什么


    論文對架構(gòu)做了兩組關(guān)鍵消融。

    第一組看輸入條件怎么拼。通道拼接是把 dashcam 信息當(dāng)作額外特征通道;視角拼接是把 dashcam 當(dāng)作第 9 個已知視角。圖像生成中, CAT3D + VC 的 FID 為 6.20 ,優(yōu)于 CAT3D + CC 的 6.63 ;加入 LiDAR 后,完整模型 FID 為 6.47 , LPIPS 為 0.316 ,也優(yōu)于 CC + LiDAR 變體。

    變體
    FID↓
    PSNR↑
    LPIPS↓
    CC 圖像
    6.63
    18.91
    0.314
    VC 圖像
    6.20
    19.12
    0.307
    CC+LiDAR
    6.88
    18.69
    0.346
    VC+LiDAR
    6.47
    19.06
    0.316

    把這組消融翻成工程語言,重點其實有兩個:

    ?視角拼接更適合這類幾何條件生成,因為輸入 dashcam 被建模成一個真實視角,避免被壓成一堆通道特征。
    ?聯(lián)合 LiDAR 訓(xùn)練會讓圖像指標(biāo)略有波動,但完整模型仍保持競爭力,說明多模態(tài)聯(lián)合沒有明顯犧牲圖像質(zhì)量。

    第二組是 DAgger 。沒有 DAgger 時,前視 FVD 為 288.90 ;加入 DAgger 后降到 278.12 。這個提升不是“換模型”的效果,更像是把推理時會遇到的錯誤上下文提前喂給模型,讓它學(xué)會糾偏。

    下游任務(wù):生成數(shù)據(jù)能被真實感知模型消費


    論文還做了一個很實用的檢查:拿在真實數(shù)據(jù)上訓(xùn)練的感知模型,直接跑在生成數(shù)據(jù)上,不做 finetune 。

    LiDAR 檢測結(jié)果顯示,車輛檢測模型在真實和生成 LiDAR 上表現(xiàn)可比;圖像分割中, Panoptic-DeepLab 在真實圖像和生成圖像上也能輸出一致預(yù)測。這個實驗給出的結(jié)論應(yīng)該保守理解:生成數(shù)據(jù)還不能替代真實采集,但它已經(jīng)接近到足以被現(xiàn)有感知模型讀取和處理。

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    LiDAR 檢測:真實點云和生成點云上,車輛檢測結(jié)果保持可比。
    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了
    圖像分割:真實圖像和生成圖像上的 panoptic segmentation 結(jié)果接近,說明生成圖像保留了可用語義結(jié)構(gòu)。

    這項工作的邊界


    論文也承認(rèn)了一個重要限制:長時間視頻仍會漂移。

    當(dāng)前模型把強(qiáng)單幀生成能力擴(kuò)展到自回歸視頻。 DAgger 能緩解短期誤差累積,但超過 30 秒的長序列里,小的 LiDAR 幾何漂移、視覺不一致、傳感器標(biāo)定感漂移仍可能逐步放大。

    論文提出兩個方向:

    ?換成更強(qiáng)的長視頻生成 backbone ,提高長程一致性。
    ?擴(kuò)大自回歸條件窗口,不只看上一幀,而是看過去多個時刻,讓模型擁有更長的時間上下文。

    我會再補(bǔ)一個工程層面的疑問:如果這些生成日志用于安全驗證,如何定義“生成結(jié)果足夠可信”? FID 、 FVD 、人類偏好、 Chamfer Distance 都有價值,但它們還不能直接回答“某個碰撞場景轉(zhuǎn)換后的 LiDAR 是否足以支撐安全結(jié)論”。后續(xù)可能需要任務(wù)級評測,比如檢測、預(yù)測、規(guī)劃模塊在真實日志和轉(zhuǎn)換日志上的行為一致性。

    我的看法: Sensor2Sensor 更像自動駕駛的數(shù)據(jù)轉(zhuǎn)接器


    Sensor2Sensor 最有意思的地方,是它把生成模型放在數(shù)據(jù)基礎(chǔ)設(shè)施的位置上。

    過去很多自動駕駛生成模型關(guān)注“從文本生成駕駛場景”“預(yù)測未來幀”“構(gòu)建可交互世界模型”。 Sensor2Sensor 的問題更窄,但工程價值很高:外部真實視頻已經(jīng)存在,怎么把它轉(zhuǎn)接到目標(biāo)車隊的傳感器體系里。

    如果這條路線繼續(xù)成熟,自動駕駛長尾數(shù)據(jù)的獲取方式可能會改變。車隊不一定只能等待自家車輛遇到稀有事件,也可以從互聯(lián)網(wǎng)上、合作伙伴 dashcam 、手機(jī)記錄中挖掘真實片段,再轉(zhuǎn)換成內(nèi)部仿真和驗證可用的日志格式。

    當(dāng)然,生成數(shù)據(jù)不能直接等同于真實采集。它更像一個放大器:把真實世界事件的可用范圍擴(kuò)大,但每一次轉(zhuǎn)換都需要被校驗。尤其是涉及安全決策時,轉(zhuǎn)換模型本身也必須進(jìn)入驗證鏈路。

    從這個角度看, Sensor2Sensor 給出的是一個方向:自動駕駛數(shù)據(jù)可以跳出“采集來源”的劃分方式,按“目標(biāo)傳感器形態(tài)”重新映射。

    資源鏈接


    ? 論文鏈接
    https://arxiv.org/abs/2605.22809

    CVPR 26 | Waymo把行車記錄儀變成自動駕駛傳感器:長尾數(shù)據(jù)終于能進(jìn)仿真了

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 少妇愉情理伦片丰满丰满午夜| 国产亚洲精品线视频在线| 亚洲午夜性猛春交xxxx| 国产亚洲无线码一区二区| 五月亚洲激情| 麻豆av在线| 亚洲人成网线在线播放VA| 天干天干啦夜天干天2017| 人妻中文网| 亚洲精品视频在线观看你懂的| 视频一区视频二区卡通动漫 | 含羞草亚洲AV无码久久精品| 久久精品夜夜夜夜夜久久| 人妻无码视频| 雷州市| 少妇熟女久久综合网色欲| 91免费人成网站在线观看| 久久国产自偷自偷免费一区| 中文字幕中文字幕在线中一区| 美女粉嫩啪啪高潮喷白浆动漫| 国产精品人妻一码二码尿失禁| 亚洲区一区二区| 俺来也www久久婷婷| 亚洲无人区一区二区三区| 久久福利| 国产成人a亚洲精品网| 精品无码国产自产野外拍在线| 无码人妻丝袜在线视频红杏| 蜜桃av在线| 精品99视频| 日韩人成| 亚洲 一区二区 在线| 亚洲av永久无码精品水牛影视| 亚洲AV无码一区| 午夜成人无码免费看网站| 一本之道加勒比人妻| 国产91精品露脸国语对白| 一群老熟女69| 亚洲欧洲国产综合一区二区| av中文资源在线资源免费观看| 亚洲浮力影院久久久久久|