• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能 正文
    發(fā)私信給鄭佳美
    發(fā)送

    0

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    導(dǎo)語(yǔ):MindVLA-U1:統(tǒng)一視覺語(yǔ)言動(dòng)作架構(gòu),實(shí)現(xiàn)理解后規(guī)劃。
    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策
    MindVLA-U1:統(tǒng)一視覺語(yǔ)言動(dòng)作架構(gòu),實(shí)現(xiàn)理解后規(guī)劃。

        作者丨鄭佳美

        編輯丨馬曉寧

                                                                                                                   

    在自動(dòng)駕駛進(jìn)入大模型時(shí)代之后,行業(yè)正在從傳統(tǒng)的“感知、預(yù)測(cè)、規(guī)劃、控制”模塊化流水線,逐步轉(zhuǎn)向端到端智能系統(tǒng)。

    過去,VA 模型能夠直接從視覺輸入生成駕駛軌跡,在規(guī)劃精度和實(shí)時(shí)性上表現(xiàn)突出,但它們更多依賴隱式視覺特征,很難清楚解釋“為什么這樣開”,也難以處理那些需要語(yǔ)義理解和常識(shí)推理的長(zhǎng)尾場(chǎng)景。

    比如車輛行駛在狹窄居民區(qū)道路上,兩側(cè)停滿車輛,前方可能有行人突然從車縫中出現(xiàn);又比如在無(wú)保護(hù)左轉(zhuǎn)路口,系統(tǒng)不僅要判斷對(duì)向來(lái)車速度,還要理解讓行關(guān)系和潛在風(fēng)險(xiǎn);再比如施工區(qū)域、臨停車輛、單純依靠視覺到軌跡的映射往往不夠,自動(dòng)駕駛系統(tǒng)還需要像人類司機(jī)一樣理解場(chǎng)景含義,再把理解轉(zhuǎn)化為可執(zhí)行的連續(xù)控制動(dòng)作。

    在這種背景下,VLA 被認(rèn)為是更接近“會(huì)理解、會(huì)解釋、會(huì)行動(dòng)”的自動(dòng)駕駛方向,但此前很多 VLA 方法又面臨一個(gè)現(xiàn)實(shí)問題:語(yǔ)言能力引入后,規(guī)劃精度、動(dòng)作連續(xù)性和推理速度往往難以同時(shí)保證。

    正是在這種行業(yè)矛盾下,香港中文大學(xué) MMLab、理想汽車和清華大學(xué)的聯(lián)合研究團(tuán)隊(duì)提出了《MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving》這項(xiàng)研究。

    研究試圖回答一個(gè)關(guān)鍵問題:自動(dòng)駕駛中的語(yǔ)言理解,究竟能不能真正幫助動(dòng)作規(guī)劃,而不是只作為解釋文本存在。圍繞這一問題,研究團(tuán)隊(duì)沒有簡(jiǎn)單地?cái)U(kuò)大模型規(guī)模,而是從架構(gòu)接口入手,把視覺、語(yǔ)言、車輛狀態(tài)、歷史記憶和動(dòng)作生成統(tǒng)一到同一個(gè) VLM backbone 中,讓模型既能理解道路場(chǎng)景,也能直接生成連續(xù)駕駛軌跡。

    更重要的是,研究通過 Intent-CFG 讓語(yǔ)言側(cè)預(yù)測(cè)出的駕駛意圖參與軌跡生成,通過 streaming memory 讓模型像真實(shí)車輛一樣逐幀處理連續(xù)視頻流,并通過快 / 慢推理路徑在實(shí)時(shí)控制和語(yǔ)義推理之間切換。

    也就是說(shuō),當(dāng)?shù)缆穲?chǎng)景簡(jiǎn)單時(shí),系統(tǒng)可以快速給出動(dòng)作;當(dāng)場(chǎng)景復(fù)雜、風(fēng)險(xiǎn)較高或需要解釋時(shí),系統(tǒng)可以保留語(yǔ)言推理能力,再生成更有語(yǔ)義依據(jù)的駕駛軌跡。這使得研究不只是一次模型指標(biāo)提升,更是在探索自動(dòng)駕駛從“看見后執(zhí)行”走向“理解后行動(dòng)”的一種新架構(gòu)路線。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    論文地址:https://arxiv.org/pdf/2605.12624

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    01


    當(dāng) VLA 開始超過 VA

    實(shí)驗(yàn)結(jié)果顯示,MindVLA-U1 在 WOD-E2E 自動(dòng)駕駛 benchmark 上取得了較強(qiáng)的整體規(guī)劃效果,尤其是在加入 RL 后,驗(yàn)證集 RFS 達(dá)到 8.20,而人類駕駛參考軌跡的 RFS 是 8.13,說(shuō)明模型在開放環(huán)評(píng)測(cè)中生成的軌跡質(zhì)量已經(jīng)超過人類駕駛參考,體現(xiàn)出研究團(tuán)隊(duì)提出的統(tǒng)一 VLA 架構(gòu)在軌跡規(guī)劃上的優(yōu)勢(shì)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    在官方測(cè)試集中,MindVLA-U1 + RL 的 RFS 達(dá)到 7.87,取得最高表現(xiàn),同時(shí) RFS-GT ADE 達(dá)到 1.09 / 2.66 m,軌跡誤差低于多數(shù)已有 VA 和 VLA 方法,說(shuō)明這種方法并不是只在驗(yàn)證集上有效,在隱藏測(cè)試集上也具有較好的泛化能力。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    語(yǔ)言對(duì)動(dòng)作的影響也得到了實(shí)驗(yàn)驗(yàn)證,普通 MindVLA-U1 的 RFS 是 7.83,加入 NTP 預(yù)測(cè) intent 后,RFS 提升到 7.92,說(shuō)明語(yǔ)言側(cè)預(yù)測(cè)出的駕駛意圖可以通過 Intent-CFG 引導(dǎo)連續(xù)軌跡生成,使語(yǔ)言信息真正進(jìn)入動(dòng)作生成過程,而不是只作為解釋或附加輸出存在。雷峰網(wǎng)

    流式記憶模塊同樣表現(xiàn)出明顯作用,chunk-wise 單幀訓(xùn)練的 RFS 是 7.69,streaming training 提升到 7.73,streaming + memory 進(jìn)一步提升到 7.83,說(shuō)明僅僅按幀進(jìn)行流式訓(xùn)練還不夠,加入歷史記憶后,模型能夠更好利用時(shí)間上下文,從而改善連續(xù)駕駛場(chǎng)景中的長(zhǎng)期規(guī)劃效果,同時(shí)長(zhǎng)時(shí)間軌跡預(yù)測(cè)中的 ADE 也整體下降,例如 25 s 序列 ADE 從 1.54 降到 1.50。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    快 / 慢路徑實(shí)驗(yàn)說(shuō)明,慢路徑可以保留語(yǔ)言推理能力,更適合復(fù)雜場(chǎng)景或安全敏感場(chǎng)景,快路徑則跳過語(yǔ)言生成,直接進(jìn)行動(dòng)作規(guī)劃,在保持較好規(guī)劃質(zhì)量的同時(shí)讓推理速度接近 VA 方法,表明 VLA 模型不一定只能“慢而重”,也可以通過不同推理模式在語(yǔ)義理解和實(shí)時(shí)控制之間切換。

    模型規(guī)模實(shí)驗(yàn)進(jìn)一步說(shuō)明,性能提升并不只依賴更大的 VLM backbone,不同尺寸下結(jié)果并不是越大越好,其中 2B 左右表現(xiàn)較好,9B 模型在默認(rèn)訓(xùn)練設(shè)置下沒有明顯優(yōu)勢(shì),延長(zhǎng)訓(xùn)練后 9B 有一定恢復(fù),說(shuō)明當(dāng)前瓶頸不只是模型大小,還包括訓(xùn)練數(shù)據(jù)規(guī)模、訓(xùn)練時(shí)長(zhǎng)、動(dòng)作接口設(shè)計(jì)和任務(wù)適配方式等因素。

    總體來(lái)看,研究結(jié)果表明,MindVLA-U1 的優(yōu)勢(shì)來(lái)自多個(gè)部分共同作用,包括統(tǒng)一的視覺語(yǔ)言動(dòng)作 backbone、連續(xù)動(dòng)作生成方式、Intent-CFG 語(yǔ)言到動(dòng)作橋接、流式記憶機(jī)制、快 / 慢推理路徑以及 RL 后訓(xùn)練,這些設(shè)計(jì)共同改善了 VLA 在自動(dòng)駕駛軌跡規(guī)劃中的精度、泛化能力、實(shí)時(shí)性和語(yǔ)義可控性。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策
    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    02


    讓模型像真實(shí)車輛一樣連續(xù)感知

    實(shí)驗(yàn)經(jīng)過方面,研究基于 WOD-E2E 數(shù)據(jù)集展開,數(shù)據(jù)來(lái)自真實(shí)自動(dòng)駕駛場(chǎng)景,每段駕駛片段約 20 秒,并且包含多攝像頭 360° 視覺輸入,因此能夠覆蓋車輛周圍不同方向的環(huán)境信息。

    由于數(shù)據(jù)集中包含較多長(zhǎng)尾場(chǎng)景,研究團(tuán)隊(duì)可以用它測(cè)試模型在復(fù)雜駕駛情況中的軌跡規(guī)劃能力,而不是只驗(yàn)證模型在普通、規(guī)則、容易預(yù)測(cè)場(chǎng)景中的表現(xiàn)。

    主要評(píng)測(cè)內(nèi)容集中在兩個(gè)方面,一方面評(píng)測(cè)模型預(yù)測(cè)軌跡的質(zhì)量,使用 RFS 衡量預(yù)測(cè)軌跡是否符合人類評(píng)審偏好,使用 ADE 衡量預(yù)測(cè)軌跡和參考軌跡之間的距離誤差,另一方面也評(píng)估語(yǔ)言輸出質(zhì)量,例如 VQA 的 BLEU 和 ROUGE,用來(lái)判斷模型在保留駕駛規(guī)劃能力的同時(shí),是否還能維持語(yǔ)言理解和回答能力。

    模型輸入包括當(dāng)前多視角圖像、車輛自身歷史狀態(tài)、文本問題或語(yǔ)言提示、歷史 streaming memory,以及帶噪聲的動(dòng)作 token,這些信息共同進(jìn)入模型,使模型既能看到當(dāng)前道路環(huán)境,又能利用車輛歷史運(yùn)動(dòng)狀態(tài)和之前幀中保留下來(lái)的時(shí)序信息。

    模型輸出包括語(yǔ)言回答和連續(xù)駕駛軌跡,二者由同一個(gè)共享 backbone 完成,不是先用一個(gè)模塊做語(yǔ)言理解,再交給另一個(gè)獨(dú)立模塊規(guī)劃動(dòng)作,也不是把動(dòng)作表示成離散坐標(biāo) token,而是直接生成連續(xù)軌跡,這樣可以減少離散化帶來(lái)的精度損失。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    統(tǒng)一 backbone 設(shè)計(jì)中,視覺、語(yǔ)言、車輛狀態(tài)、記憶、動(dòng)作 token 會(huì)一起進(jìn)入 VLM backbone,語(yǔ)言通過自回歸方式生成,動(dòng)作通過 flow-matching 方式生成,兩類任務(wù)共享模型表示,使語(yǔ)義理解和動(dòng)作規(guī)劃能在同一模型內(nèi)部結(jié)合。

    流式記憶設(shè)計(jì)中,模型不是一次性輸入固定長(zhǎng)度視頻片段,而是每次只處理當(dāng)前幀,歷史信息通過 FIFO memory 保存,memory 會(huì)隨著車輛運(yùn)動(dòng)進(jìn)行對(duì)齊,每一幀處理后,模型還會(huì)寫入新的 memory,從而讓歷史上下文在連續(xù)駕駛過程中不斷傳遞,這種方式更接近真實(shí)自動(dòng)駕駛中的連續(xù)視頻流,也減少了重復(fù)處理多幀視頻帶來(lái)的計(jì)算負(fù)擔(dān)。

    Intent-CFG 設(shè)計(jì)中,模型先預(yù)測(cè)當(dāng)前駕駛意圖,例如直行、左轉(zhuǎn)、右轉(zhuǎn)等,再把這個(gè) intent 作為條件,引導(dǎo)動(dòng)作擴(kuò)散過程,并通過 CFG 讓 intent 對(duì)軌跡生成產(chǎn)生影響。

    實(shí)驗(yàn)還對(duì)比了無(wú) intent、軌跡派生 intent、GT intent 和模型預(yù)測(cè) intent,結(jié)果顯示模型預(yù)測(cè) intent 的效果最好,說(shuō)明由語(yǔ)言側(cè)預(yù)測(cè)出的駕駛意圖更能幫助模型生成合理軌跡。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    快/慢推理設(shè)計(jì)中,vqa_first 表示先語(yǔ)言推理再動(dòng)作規(guī)劃,action_first 表示先動(dòng)作規(guī)劃再生成語(yǔ)言解釋,action_only 表示只生成動(dòng)作不生成語(yǔ)言,不同模式共享同一套模型權(quán)重,因此部署時(shí)可以根據(jù)場(chǎng)景復(fù)雜度選擇推理方式,簡(jiǎn)單場(chǎng)景中使用更快的動(dòng)作路徑,復(fù)雜或安全敏感場(chǎng)景中保留語(yǔ)言推理能力。

    最后,在監(jiān)督訓(xùn)練后,研究人員進(jìn)一步使用 RL 優(yōu)化模型,獎(jiǎng)勵(lì)信號(hào)主要來(lái)自 RFS,使模型生成的軌跡更符合人類評(píng)審偏好,并最終取得驗(yàn)證集和測(cè)試集上的最好結(jié)果。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策
    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    03


    自動(dòng)駕駛 VLA 接口的重構(gòu)

    實(shí)驗(yàn)意義在于重新解釋 VLA 過去落后 VA 的原因,研究團(tuán)隊(duì)認(rèn)為,VLA 過去規(guī)劃效果差,并不是因?yàn)檎Z(yǔ)言天然會(huì)傷害控制能力,而是因?yàn)榻涌谠O(shè)計(jì)不合理,例如一些方法把本來(lái)需要保持高精度的連續(xù)軌跡離散成語(yǔ)言 token,導(dǎo)致動(dòng)作表達(dá)受到 token 精度限制,也有一些方法把語(yǔ)言模塊和動(dòng)作模塊分離得太遠(yuǎn),使語(yǔ)言理解結(jié)果難以真正影響軌跡規(guī)劃,還有一些方法在時(shí)間建模上依賴固定視頻 chunk,容易造成計(jì)算冗余和片段邊界不連續(xù)。

    基于這種判斷,MindVLA-U1 證明 VLA 可以同時(shí)兼顧理解和控制,模型既保留語(yǔ)言理解能力,又保留連續(xù)動(dòng)作生成能力,不需要為了獲得語(yǔ)言接口而犧牲軌跡精度,也不需要在推理時(shí)把語(yǔ)言模塊完全丟掉。

    更重要的是,研究讓語(yǔ)言真正進(jìn)入駕駛決策過程,過去很多 VLA 雖然擁有語(yǔ)言頭,但語(yǔ)言并沒有明確影響動(dòng)作,更多只是作為解釋或輔助輸出存在,而 MindVLA-U1 通過 Intent-CFG 建立了語(yǔ)言到動(dòng)作的可測(cè)量路徑,使駕駛意圖不只是對(duì)結(jié)果的說(shuō)明,而是能夠改變軌跡生成方向,從而讓語(yǔ)言側(cè)理解對(duì)連續(xù)控制產(chǎn)生實(shí)際作用。

    研究也更適合真實(shí)自動(dòng)駕駛部署,因?yàn)檎鎸?shí)駕駛是連續(xù)視頻流,而不是固定長(zhǎng)度片段,streaming memory 能讓模型按幀處理場(chǎng)景,同時(shí)保留歷史上下文,并減少重復(fù)處理多幀視頻帶來(lái)的計(jì)算浪費(fèi),使模型更接近真實(shí)車輛持續(xù)感知和持續(xù)規(guī)劃的工作方式。

    快/慢系統(tǒng)統(tǒng)一方案也是重要意義之一,簡(jiǎn)單場(chǎng)景可以走 action_only 快路徑,直接生成動(dòng)作以滿足實(shí)時(shí)控制需求,復(fù)雜場(chǎng)景可以走帶語(yǔ)言推理的慢路徑,讓模型在安全敏感或語(yǔ)義復(fù)雜情境中進(jìn)行更充分分析,一個(gè)模型即可覆蓋不同計(jì)算需求,有助于實(shí)際部署中平衡實(shí)時(shí)性和安全性。

    整體來(lái)看,研究推動(dòng)了自動(dòng)駕駛 VLA 架構(gòu)發(fā)展,其重點(diǎn)不是單個(gè)模塊改進(jìn),而是統(tǒng)一語(yǔ)言、視覺、記憶、動(dòng)作的整體接口,為后續(xù)自動(dòng)駕駛模型設(shè)計(jì)提供了參考價(jià)值。

    同時(shí),研究也留下進(jìn)一步探索空間,當(dāng)前主要是開放環(huán)評(píng)測(cè),還沒有充分驗(yàn)證閉環(huán)駕駛表現(xiàn),目前只使用了較簡(jiǎn)單的 3 類 intent,MindLabel 中更豐富的 20 類 intent、軌跡評(píng)價(jià) QA、CoT rationale 還沒有充分利用,后續(xù)仍可以繼續(xù)提升長(zhǎng)尾場(chǎng)景處理能力、多模態(tài)動(dòng)作選擇能力和閉環(huán)安全性。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    04


    MindVLA-U1 背后的研究者

    這篇論文的通訊作者為李鴻升,香港中文大學(xué)電子工程系 Multimedia Laboratory 副教授,同時(shí)兼任香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授,并將于 2026 年 8 月 1 日起晉升為正教授。

    他于 2006 年獲得華東理工大學(xué)自動(dòng)化專業(yè)工學(xué)學(xué)士學(xué)位,2006 年至 2007 年在上海交通大學(xué)模式識(shí)別與智能系統(tǒng)方向?qū)W習(xí),隨后進(jìn)入美國(guó) Lehigh University 攻讀博士,并于 2012 年獲得計(jì)算機(jī)科學(xué)博士學(xué)位。

    職業(yè)經(jīng)歷上,他曾在電子科技大學(xué)電子科學(xué)學(xué)院擔(dān)任副教授,之后在香港中文大學(xué)電子工程系先后擔(dān)任博士后、研究助理教授和助理教授,并自 2022 年 7 月起擔(dān)任副教授。研究方向上,他長(zhǎng)期關(guān)注計(jì)算機(jī)視覺、醫(yī)學(xué)影像、深度學(xué)習(xí)、多模態(tài)學(xué)習(xí)、生成模型、具身智能和機(jī)器人操作等領(lǐng)域。

    學(xué)術(shù)成果方面,他在 CVPR、ICCV、NeurIPS、ICML、ACL、EMNLP、AAAI 等頂級(jí)會(huì)議持續(xù)發(fā)表成果,2025 年有 13 篇成果被 NeurIPS 接收、3 篇被 EMNLP 主會(huì)接收、7 篇被 ICCV 接收、4 篇被 ACL 接收、3 篇被 ICML 接收、11 篇被 CVPR 接收,2026 年有 3 篇成果被 ACL 接收,并有 27 篇成果被 ICML、CVPR、ICLR、AAAI 接收。

    他還曾獲得過 2025 年香港中文大學(xué) Research Excellence Award、2021 年香港中文大學(xué) Young Researcher Award、2020 年 IEEE Circuits and System Society Outstanding Young Author Award,并在 2022 年、2023 年、2024 年獲得 AI 2000 計(jì)算機(jī)視覺領(lǐng)域最具影響力學(xué)者榮譽(yù)提名,2022 年至 2025 年入選斯坦福大學(xué)全球前 2% 頂尖科學(xué)家榜單。

    除此之外,他的團(tuán)隊(duì)曾獲得 ActivityNet Challenge 2020 時(shí)空動(dòng)作定位 AVA 賽道冠軍、ImageNet Video Object Detection Challenge 2015 冠軍,以及 ImageNet Video Object Detection / Tracking Challenge 2016 冠軍,近年研究覆蓋網(wǎng)頁(yè)生成評(píng)測(cè)、移動(dòng) GUI 智能體、多模態(tài)數(shù)學(xué)推理、圖像生成、視覺生成編輯、自動(dòng)駕駛場(chǎng)景生成和具身智能等方向。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    參考鏈接 :https://www.ee.cuhk.edu.hk/~hsli/

    另一位通訊作者為朱本金(Benjin Zhu),目前是理想汽車的研究科學(xué)家,同時(shí)在清華大學(xué)從事博士后研究,合作導(dǎo)師為代季峰教授。

    他于 2025 年在香港中文大學(xué)電子工程系獲得博士學(xué)位,博士期間隸屬于 Multimedia Lab,導(dǎo)師為李鴻升教授和王曉剛教授,并于 2018 年在華南理工大學(xué)獲得軟件工程學(xué)士學(xué)位。

    職業(yè)經(jīng)歷方面,他曾于 2019 年 1 月至 2021 年 5 月在曠視研究院擔(dān)任研究員,研究方向包括端到端目標(biāo)檢測(cè)、無(wú)監(jiān)督 / 自監(jiān)督學(xué)習(xí)和研究基礎(chǔ)設(shè)施,2025 年 5 月起在理想汽車擔(dān)任高級(jí)研究工程師,主要關(guān)注世界模型、視覺語(yǔ)言動(dòng)作模型和強(qiáng)化學(xué)習(xí)。

    他聚焦視覺語(yǔ)言動(dòng)作模型、擴(kuò)散模型、世界模型和 AI 基礎(chǔ)設(shè)施。學(xué)術(shù)成果方面,他參與了多項(xiàng)計(jì)算機(jī)視覺、三維感知和自動(dòng)駕駛相關(guān)研究,成果曾被 ICCV、ECCV、CVPR 等國(guó)際頂級(jí)會(huì)議接收。

    除此之外,他還曾獲得 WAD CVPR 2019 首屆 nuScenes 3D 目標(biāo)檢測(cè)挑戰(zhàn)賽冠軍,并對(duì)多個(gè)開源計(jì)算機(jī)視覺框架作出重要貢獻(xiàn),相關(guān)框架覆蓋三維檢測(cè)、視覺任務(wù)實(shí)驗(yàn)管理和通用深度學(xué)習(xí)研究基礎(chǔ)設(shè)施。

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    參考鏈接:https://benjin.me/

    這次去 CVPR 現(xiàn)場(chǎng),一定不要錯(cuò)過

    【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)

    需要你做什么:把你最關(guān)注的10個(gè)大會(huì)報(bào)告,每頁(yè)P(yáng)PT都拍下來(lái)

    你能獲得什么?

    認(rèn)識(shí)大牛:你將可以進(jìn)入CVPR名師博士社群;

    錢多活少:提供豐厚獎(jiǎng)金,任務(wù)量精簡(jiǎn);

    聽會(huì)自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。

    如果你即將前往CVPR,想邊聽會(huì)邊賺錢,還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛,歡迎聯(lián)系我們:[添加微信號(hào):MS_Yahei]

    限額5位,先到先得

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    港中文李鴻升團(tuán)隊(duì)論文 MindVLA-U1:VLA 不再輸給 VA,語(yǔ)言真正進(jìn)入自動(dòng)駕駛決策

    分享:
    相關(guān)文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)
    主站蜘蛛池模板: 成人精品天堂一区二区三区| 日韩AV在线直播| 人妻无码人妻| 欧美黑吊大战白妞最新章节| 亚洲欧美小说区图片另类 | 国产偷国产偷亚洲高清人乐享| 东京热一精品无码av| 日韩天码| 日本久久二区三区四区五区| 超碰热| 伊人av超碰伊人久久久| 黄色99| 亚洲国产黑色丝袜天堂| 四虎在线成人免费观看| 欧美成人综合| av色天堂| 欧美综合影院在线影院| 久久免费观看归女高潮特黄| 一区二区三区精品偷拍| 国产精品大全中文字幕| 91福利专区体验区试看一分钟| 欧美日韩国产亚洲人成| 精品无码国产污污污免费| 久久亚洲精品亚洲人av| 日本边添边摸边做边爱的网站| 亚洲国产日韩在线人高清 磁力 | 91福利导航大全| 一本一道久久久a久久久精品91| 欧美人妻少妇| 国产91久久久久久| 亚洲 制服 丝袜 无码 在线| 日韩欧美猛交xxxxx无码| 免费人成在线观看网站 | 野外做受又硬又粗又大视频| 毛片网站在线观看| 老色鬼在线精品视频在线观看| 色琪琪丁香婷婷综合久久| 无码人妻久久久一区二区三区| 国产精品激情av在线播放| 最新免费av在线播放| 马关县|