視頻「聽」出物理！Sony聯研Oral出爐，卡車感知崩了31%-99%

本文作者：陳淑瑜

2026-05-28 10:13

導語：物理AI上Oral+卡車長距崩塌+6DoF爆贊，視覺×物理成主線

本期CVPR 2026日報迎來Oral論文集中爆發——物理AI方向首次拿下Oral席位，Sony AI聯合KAIST/POSTECH讓視頻「聽」出物理屬性；與此同時，自動駕駛感知的殘酷真相被一組卡車數據集揭穿，SOTA模型在150米外精度斷崖式下跌；加上連續3期霸榜的EgoFlow用Flow Matching重構6DoF運動生成，視覺×物理融合正成為本屆CVPR最清晰的主線。以下三大議題，帶你速覽今日最熱。

熱門議題一物理AI首次拿下Oral，視頻生成音效突破多模態邊界

PAVAS: Physics-Aware Video-to-Audio (CVPR 2026 Oral)

PAVAS工作解決了視頻生成音頻時缺乏物理感知導致音效不真實的問題，創新點在于模型能理解視頻中的質量、速度和碰撞等物理信息，據此生成逼真音效，實現物理感知驅動的跨模態生成。

成果：CVPR 2026 Oral Presentation，KAIST+POSTECH+Sony AI聯合出品，物理AI+多模態交叉方向獨特突破。

論文鏈接：https://x.com/kaistpr/status/2059493763022766566

來源：@kaistpr (KAIST/POSTECH/Sony AI) | 日期：2026-05-27

視頻「聽」出物理！Sony聯研Oral出爐，卡車感知崩了31%-99%

熱門議題二 SOTA模型150m外崩塌！卡車長距感知數據集揭開殘酷真相

TruckDrive: Long-Range Truck Autonomy Dataset (CVPR 2026)

TruckDrive工作解決了長途卡車自動駕駛缺乏長距感知評測數據集的問題，創新點在于構建了475K樣本（165K密集標注幀）的長距數據集，傳感器套件含7個長程FMCW LiDAR+3個短程LiDAR+11個8MP攝像頭+10個4D FMCW雷達。核心發現：當前SOTA模型在150m以外3D感知任務精度下降31%-99%，暴露長距泛化的巨大空白，為自動駕駛感知研究敲響警鐘。Torc Robotics+Princeton (Felix Heide)聯合出品。

論文鏈接：https://x.com/FelixHeide/status/2059620592836325547

來源：@FelixHeide (Torc Robotics/Princeton) | 日期：2026-05-27

視頻「聽」出物理！Sony聯研Oral出爐，卡車感知崩了31%-99%

熱門議題三 Flow Matching+物理約束重構6DoF運動生成

EgoFlow: Flow Matching + Gradient-Guided Physical Constraints for Egocentric 6DoF Object Motion (CVPR 2026)

EgoFlow工作解決了從自我中心視頻預測物體6DoF運動且保持物理可行性的問題，創新點在于將Flow Matching與gradient-guided物理約束結合，實現自我中心視角下真實感的物體運動生成。TUM CVG團隊（Daniel Cremers等）出品，連續3期出現在日報中（5/26→5/27→5/28），代表Flow Matching在視覺任務中的前沿應用方向，與PAVAS、GeoFreeNVS Workshop共同印證視覺×物理融合為本屆CVPR核心主線。

論文鏈接：https://x.com/abhi_saroha19/status/2059240832146850121

來源：@abhi_saroha19 (TUM CVG) | 日期：2026-05-26

視頻「聽」出物理！Sony聯研Oral出爐，卡車感知崩了31%-99%