對話速騰聚創楊先聲：機器人的通用智能，先從一雙「不騙人」的眼睛開始 | ICRA 2026

本文作者：高景輝

2026-06-15 21:44

專題：ICRA 2017：創新、創業和解決方法

導語：機器人不僅要看得見，還要看得遠、看得穩、看得全。

對話速騰聚創楊先聲：機器人的通用智能，先從一雙「不騙人」的眼睛開始 | ICRA 2026

機器人不僅要看得見，還要看得遠、看得穩、看得全。

作者丨高景輝

編輯丨馬曉寧

當全球具身智能公司都在ICRA 2026的展臺上比拼 DEMO 時，一個棘手的問題卻被眾人所忽視：機器人至今沒有一雙真正好用的眼睛。

這是整個行業心照不宣的卡點。所有人都在說大模型、VLA帶來了通用智能的曙光，但落地時卻卡在了最原始的環節——機器人看不準三維世界，做不了精細操作，速度永遠趕不上人類。為了彌補傳感器的缺陷，解決制約物理AI的卡點，公司們不得不投入大量資源搭建仿真環境、采集標注數據，用算法去“猜”深度……本質上是在用軟件填硬件的坑。

在這一背景下，速騰聚創副總裁楊先聲在 ICRA 做了一場學術匯報，展示了一套面向機器人的全新視覺感知架構。與行業普遍采用的“先分別采集、后算法融合”不同，這套架構在物理層面就實現了深度探測與RGB的天然對齊，深度信息與顏色信息無需后期校準，直接輸出給后端。

在楊先聲看來，這才是解決機器人感知問題的根本路徑。但這一新架構究竟要如何打破傳統3D相機“穩定、距離、精度”的不可能三角？從雷峰網(公眾號：雷峰網)·AI科技評論在 ICRA 現場與楊先聲的對話中，我們或許可以找到答案。

▎AI科技評論：速騰在ICRA帶來了新的視覺感知架構，可以簡單透露下嗎？

楊先聲：新的架構和之前相比，最大不同在于原始數據底層就已經融合好了，所以在物理層面上，它的深度信息和顏色信息是天然對齊，不需要后期算法去處理。所以這個架構在精度、可靠性上，包括成本、性能，各方面都是比之前的方案要好，會大幅提升機器人訓練數據的質量和實時感知能力，將會大大加速物理AI的進化。

▎AI科技評論：現在機器人在感知方面的痛點是什么？

楊先聲：你可以看到所有機器人現在做一些很精細的活，但它速度很慢，遠遠達不到人類效率。其中主要的卡點在于感知能力，而感知能力在物理層面上是有限制的，更何況機器人在開放環境需要實時的感知決策，所以難度很大。

當然，用一個簡單的傳感器也能做到高智能，但這對其他技術的要求會高很多。而如果機器人對世界有清晰的感知，再做一些控制或者其他的決策就容易多了。否則就會花很多精力去做訓練，做試錯，讓它慢慢慢慢的收斂，還要使它可控。所以我們關注的第一步就是先解決機器人的感知。

▎AI科技評論：相當于你們在感知層面給了機器人更高的起點，后面做其他環節就可以更加簡單？

楊先聲：對，這個可以分兩個層面，機器人相比于自動駕駛更復雜，不光是維度更高，從一個平面會到立體空間，它面對的操作和環境也是千變萬化的。而且它是有接觸的，但車不需要接觸障礙物。人能完成操作，是因為人的感知力很強，不僅有觸覺，還有力覺，甚至還有那種接觸覺，這種復合的空間立體感知能力可以準確感知周圍事物空間位置的變化。

但目前機器人的眼睛現在其實并不準，大大限制了它的泛化能力。而我們現在做是，先解決他能感知環境的能力。現在機器人需要大量數據去幫助它在環境中訓練，把真實世界的環境輸入進去，這一步就很難了，因為把真實環境照搬仿真環境里的工作量非常大，對于很多公司是不現實的。

但如果三維空間傳感器足夠好，就能把完整的立體空間和色彩信息全部輸入給機器人和仿真環境，成本會大大降低，所以這是關鍵第一步。現在機器人缺乏高質量的空間數據，不只是激光雷達這種帶點云的，它還需要帶色彩紋理的RGB的信息，因此我們的傳感器應運而生。

▎AI科技評論：您在報告里強調了“深度”，機器人對深度的感知是不是行業目前比較薄弱的環節？

楊先聲：對，激光雷達已經是一個比較可靠的深度傳感器了，以自動駕駛為例，在大空間、長距離、車載環境上，一般每100米只有5厘米到10厘米深度誤差，對于車載是夠用的。但是對于機器人面對這種的復雜環境，需要到毫米級的深度感知。

目前能用的像雙目結構光、ToF這種傳統3D相機，它們在很多環境都不穩定，測距范圍也就是一米左右。

而且還有三個物理層面無法解決的缺陷：第一，這三種方案都屬于間接測量，能力被環境光變化限制；第二這三種方案的分辨率低，也都做不到RGBD的像素級對齊；第三，這三種方案都有CIS（圖像傳感器）的問題，存在無法克服的炫光、精度衰減等問題。這些方案都非常耗算力，在提升幀率、降低時延等影響機器人末端控制的關鍵技術點上很難做出有價值的突破。

所以，雖然大家都在用這些方案，但是都只在特定的環境當中用。而我們用激光雷達，如果能把這深度信息的精度解決，再把它的分辨率再提升，就可能是一個相對完美的傳感器。我們正奔著大家心目中理想的傳感器在演進，試圖打破穩定、距離、精度的不可能三角。

▎AI科技評論：就視覺感知來說，從智駕到具身智能，哪些技術可以復用？

楊先聲：我們現在其實整個激光雷達底層的技術，都已經統一了，就是我們SPAD-SoC這套數字化架構。只不過對于車載來說，我們更加專注于長距離、高分辨率、低成本，對機器人而言，我們關注近距離，高精度，小體積，低功耗，甚至要跟RGB做融合，這個其實跟體感技術是很類似的，但是我們把它最終產品形態上做了很大的區分。

▎AI科技評論：你們的技術路線有哪些獨特的優勢？

楊先聲：我們的SPAD技術路線最大價值就是更高的集成度。原來SiPM可能做128線就已經是旗艦產品了，但對于我們SPAD來說，做個幾百線，甚至上千線都是很容易的事情。這相當于是在性能層面已經到了另外一個維度。所以今年友商其實都在跟進這個新的方向。在這個方向上，我們的芯片有兩年的代差優勢。

▎AI科技評論：開發的壁壘在哪里？

楊先聲：我們現在是全棧自研的，就是從接收芯片，發射、驅動，甚至SOC全是自研的。所以從芯片設計，芯片的流片，再到整個系統架構，包括芯片的穩定性和成本，系統的調通，系統優化……這個整個全鏈路其實都是壁壘，我們也是花了很長時間才走通。

▎AI科技評論：我看到您有一個非常通俗的表達，就是說機器人不僅要看得見，還要看得遠、看得穩、看得全，能不能介紹這三個分別對應的技術問題是什么？

楊先聲：“看得見”意思是，現在傳統的這種機械式激光雷達分辨率很低，就是16線、32線階段，這個雷達只能做導航，用來做空間定位，其實它是看不清你身邊有什么東西，所以以前激光雷達的作用是非常有限的。

當我們推出這種幾百線、上千線的高線數的激光雷達之后，它就能把整個環境用三維的方式給還原出來，那這個時候就不只是用來做的定位導航，我們還可以做精細感知。

再然后，當我們在底層，把RGB融合進來后，空間環境感知的所有信息我們用一個傳感器就可以都解決。

▎AI科技評論：這種新的技術會不會對機器人數據采集的效率、質量有所提升？

楊先聲：這是一定的，因為大部分數采公司找我們合作。他們遇到的問題是一樣的：視覺可以通過大量的數據訓練去獲得一個比較好的成果，但是終歸它不是一個很穩定、很魯棒的一個東西，所以它精度上限不高。

雖然未來機器人可以用視覺去完成大部分工作，因為這樣成本比較低，可以推廣，但是在早期做訓練和研究的時候，不可能用視覺去做，而且數采本身就是為了拿這個數據作為基準去訓練，所以它需要高質量的數據。雖然很多人都用視覺做數采，但并不意味著真的能滿足客戶需求，我們其實已經收到很多終端客戶的反饋，認為大部分的純視覺數據在質量上難以滿足需求。我們今年接觸到很多這種做數采的客戶，都在想辦法去拿基于高精度的三維感知，去提升他們整體的數據質量。

▎AI科技評論：隨著這種全新形態的RGB-D設備出現，會不會增加端測處理信號的算力要求？

楊先聲：其實不會。雖然雙目設備很便宜，就兩個攝像頭，但是需要大量的算力把深度信息給反解算出來，所以很消耗算力。而我們這種RGB-D融合的方式，可以直接計算深度信息，直接把圖像信息和深度信息給到后端，沒有解析的過程，所以其實它反而大大節省了算力，還能提升幀率、降低延遲，對整個VLA性能和末端控制的提升都很有價值。

▎AI科技評論：隨著線數的增加，點云的密度在增加，處理的信號不會更多嗎？

楊先聲：對，但這個可以自己選擇，如果不需要這么密的深度信息，依然可以選擇低密度采樣的方式，但是無論如何，我們至少節省了客戶在后端計算的過程，提升了他們的效率，而且還節省了很多存儲的空間。

▎AI科技評論：很多具身公司是從智駕行業轉過來的，他們在選擇供應商時會不會有路徑依賴？

楊先聲：其實會有這個趨勢。因為具身智能是比自動駕駛更高端的領域，技術維度也比智駕更高，它不僅包括感知、決策、規劃，還包括更高精度、更高維度的傳感器的這種設計和需求，更不用說后面的控制和感知的算法其實更加復雜。所以對大家而言，不管是我們作為上游的傳感器廠商，還是作為下游的這些機器人公司，他們都會一起來做，所以我覺得大家是共同在進步。

▎AI科技評論：未來3-5年機器人在感知方面最大的變數在哪里？

楊先聲：現在有兩大突破點，一是對環境的3D環境的感知，這是我們的優勢。當我們這種新的RGBD方案成熟的話，那我覺得未來機器人在眼睛這個程度上，就會逐步收斂，就跟人一樣，有一雙眼睛就夠了。然后就是要把觸覺再逐步優化，因為現在觸覺第一是貴，第二是它的可靠性、耐用性不夠，第三是成本太高。

▎AI科技評論：從技術原理的角度，觸覺會不會要比視覺更難達到新的高度？

楊先聲：對，因為視覺歸根結底還是個非接觸性傳感器，不會有太多的材料上面的問題。觸覺傳感器要實時跟環境有接觸，接觸會帶來摩擦，就會帶來可靠性的問題，甚至接觸不同的物體，對不同材質啊、溫度都很敏感。一旦產生交互之后，所有的問題都會升級很多。

▎AI科技評論：對于純視覺的方案和激光雷達方案，企業在選擇上會有什么考慮？

楊先聲：我覺得機器人不存在所謂的純視覺概念，因為人類空間感知也都是立體視覺和三維感知的。因為所謂的純視覺沒辦法在這種復雜環境當中確保穩定性，而操作一定需要很高精度的空間感知能力，所以所謂的純視覺沒辦法做到既高效又可靠的。

去哪看 ICRA 核心【演講/論文】詳解？

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨，雷峰網已全面上線【ICRA 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。

掃描下方二維碼，或點擊「閱讀原文」關注專區。

對話速騰聚創楊先聲：機器人的通用智能，先從一雙「不騙人」的眼睛開始 | ICRA 2026