<sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"><tfoot id="pqc61"></tfoot></sub><sub id="pqc61"></sub>

在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码

<sup id="v8pcb"><video id="v8pcb"></video></sup>

<small id="v8pcb"></small>

<meter id="v8pcb"></meter>

<center id="v8pcb"><center id="v8pcb"></center></center>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發私信給陳淑瑜

發送

0

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

本文作者：陳淑瑜

2026-05-29 17:35

專題：CVPR 計算機視覺與模式識別會議

導語：南洋理工大學MARS Lab與NPL Lab聯合打造首個具身問答棄權基準AbstainEQA，實測發現頂尖模型棄權能力僅達人類47%，為安全人機交互劃定全新標準

來源：公眾號“視覺語言導航”

原文鏈接：https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58

作者：Tao Wu1, Chuhao Zhou1, Guangyu Zhao2, Haozhi Cao1, Yewen Pu1, Jianfei Yang1
單位：1南洋理工大學，2北京大學
論文標題：When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
論文鏈接：https://arxiv.org/abs/2512.04597
項目主頁：https://abstaineqa.github.io/
代碼鏈接：https://github.com/gibrantaowu/AbstainEQA

? 研究背景：機器人“強行作答”，藏著巨大安全隱患

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

隨著視覺語言模型（VLMs）飛速發展，具身機器人已從實驗室走向家庭場景，能在3D室內環境中導航、感知，完成具身問答（EQA）任務，成為老人陪護、家務輔助的重要幫手。

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

但所有現有EQA基準都存在一個致命前提：默認機器人必須回答所有問題，完全忽略真實人機交互的復雜性。

研究團隊通過真實用戶調研發現：

收集500條人類自然提問，32.4%的問題存在信息缺失、歧義或無法回答；
機器人強行作答會引發兩大災難：

幻覺致安全事故：未查看浴室就謊稱地面干燥，導致老人滑倒；
導航徹底失效：指代模糊的問題讓機器人無目的漫游，完全浪費算力。

在家庭陪護、醫療輔助等安全敏感場景，“不知道”比“瞎回答”更重要！棄權（信息不足時拒絕作答）是可靠人機交互的最低要求，卻長期被學界忽視。

? 核心貢獻：四大突破，重新定義具身問答標準

首創棄權分類體系：基于人類認知理論+真實交互數據，提煉5類必須棄權的場景，為具身問答不確定性提供系統化判定依據。
發布 AbstainEQA 基準：全球首個人工標注的具身問答棄權基準，包含1636個棄權案例+1636個常規案例，經數據擴充后總樣本達16360條，配套幀級視覺證據標注。
全方位模型評測：從模型規模、提示策略、微調方法三大維度，系統性測試當前頂尖具身模型，揭露現有方法的核心缺陷。
深度錯誤分析：明確模型棄權失效的根本原因，為后續安全、可靠的具身交互研究指明方向。

? 問題描述：從“必須作答”到“學會棄權”

本文將傳統具身問答（EQA）升級為AbstainEQA，核心要求：智能體在證據不足、問題歧義時，主動棄權而非強行作答。

形式化定義（極簡版）

給定用戶問題和機器人視覺觀測序列，機器人需自主決策：

選擇answer：基于視覺證據給出準確答案；
選擇abstain：明確說明無法回答的理由。

兩大評測場景

情景記憶EQA（EM-EQA）：機器人僅用已看到的畫面作答，不額外探索；
主動EQA（A-EQA）：機器人可在限定步數內導航探索，再決定作答或棄權。

? AbstainEQA 基準：科學定義“什么時候該說不知道”

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

1. 棄權需求：真實交互中，1/3問題無法回答

團隊招募50名普通用戶，基于HM3D、ScanNet真實室內場景生成自然提問，最終證實：32.4%的人類問題需要機器人棄權，棄權是人機交互的固有需求。

2. 五大棄權類型（核心判定標準）

基于Norman人類認知錯誤理論，精準劃分5類必須棄權的場景，覆蓋所有真實歧義情況：

類型	核心含義	通俗場景示例
可執行性限制（AL）	需物理交互，純視覺無法完成	問“盒子里有什么”，機器人打不開盒子
指代不明確（RU）	描述對應多個物體，無法定位	問“白色柜子上有什么”，房間有多個白柜
信息不可用（IU）	關鍵時空信息缺失，無法推理	問“誰把花瓶放桌上”，機器人沒看到過程
錯誤預設（FP）	問題前提與事實矛盾	問“床上泰迪熊材質”，床上根本沒有泰迪熊
偏好依賴（PD）	依賴主觀審美，無客觀答案	問“墻上的畫好看嗎”，無統一標準答案

3. 數據集亮點

均衡配比：1636個棄權案例 + 1636個常規可回答案例，公平評測；
幀級標注：人工標記支撐答案/棄權的關鍵畫面，綁定視覺證據；
數據擴充：通過LLM生成5種語義變體，覆蓋多樣化表達。

? 評估標準：三維度科學評測，結果可信可復現

為全面衡量機器人的棄權能力，團隊設計三維度評估體系，并通過人類驗證確保結果可靠：

回答準確率：用GPT-4o做語義匹配，評估機器人答案的準確性，避免主觀偏差。
棄權識別能力：核心計算召回率、精確率、F1值、準確率，判斷機器人能否精準識別需要棄權的問題。
具身導航效率：針對主動EQA，評測導航成功率、探索幀數、路徑長度，看棄權問題是否影響機器人行動。
人類驗證：LLM自動評估與人類標注的皮爾遜相關系數達0.88，評估結果高度可靠。

? 實驗結果：顛覆認知！現有模型根本不會“說不知道”

團隊圍繞4個核心問題展開實驗，結論直擊領域痛點：

1. 頂尖模型棄權能力，僅達人類一半

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

最優模型Gemini-2.5-Pro：棄權召回率42.79% ；
普通人類：棄權召回率91.17% ；
模型僅在“信息不可用”上表現稍好，指代模糊、主觀偏好類問題幾乎完全失效。

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

2. 模型做大沒用，跨模態對齊才是關鍵

同系列模型（如Qwen）：參數擴大，棄權能力小幅提升；
跨模型對比：參數規模不決定棄權能力，模型架構、跨模態對齊才是核心。

3. 提示、推理都是“表面功夫”

加提示詞：棄權召回率飆升，但精確率暴跌，機器人開始過度棄權；
加推理步驟：大模型棄權能力不升反降，只會說廢話，不會真判斷。

4. 微調模型：全是“作弊”，只看文字不看畫面

CVPR-2026 Highlight | 機器人如何“知之為知之”！AbstainEQA：具身問答棄權能力基準重磅發布

監督微調（SFT）模型看似指標拉滿，實則嚴重過擬合文本特征：

隨機刪掉/換掉視覺畫面，模型性能幾乎不變；
同樣的問題，不管場景如何，答案完全一樣，完全無視視覺證據。

5. 棄權問題，直接摧毀導航效率

歧義問題下：

導航成功率：77.17% → 61.41% ，暴跌15個百分點；
機器人陷入兩極分化：要么過早停止探索，要么無目的亂逛，導航完全失效。

? 研究結論：具身機器人，先學會“說不知道”

現有具身問答模型，完全不具備可靠棄權能力，無法識別歧義、信息缺失問題，暗藏安全風險；
模型縮放、提示工程、顯式推理、監督微調，都只是表面優化，模型依賴文字捷徑，未真正結合視覺證據；
歧義問題會導致具身導航低效、不穩定，嚴重影響人機交互安全性與實用性。

未來方向：研發綁定視覺證據的棄權推理模型、打造不確定性感知導航策略、消除文本捷徑的訓練范式，讓機器人真正學會“知之為知之，不知為不知”。

0人收藏

分享：

相關文章

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

more

陳淑瑜

編輯

發私信

當月熱門文章

最新文章

熱門搜索

機器學習 Twitter 諾基亞 AR 中科院 wifi 特朗普 saas 日本迅雷 Pebble

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

主站蜘蛛池模板： AV在线亚洲天堂| 丁香激情网| 天啦噜国产精品亚洲精品| 337p日本欧洲亚洲大胆艺术图| 国产高清在线观看av片麻豆| 人妻无码| 国产一区二区三区AV在线无码观看 | 亚洲av中文一区二区| 久久国内精品一区二区三区| 免费人成视频在线观看视频| 亚洲人成网亚洲欧洲无码久久| 精品国产乱一区二区三区| 亚洲人成网站在线播放无码| 中文字幕XXXXX| 两个人看的视频高清在线www| 老司机亚洲精品一区二区| av无码不卡| 宅男aV一区二区三区| 欧美成人精品a∨在线观看| 国产一区二区日韩在线| 麻豆国产| 中文字幕人妻色欲| 亚洲日韩AV秘无码一区二区 | 亚洲国产长腿丝袜av天堂| 亚洲色在线v中文字幕| 国产suv精品一区二区33| 国产成人在线小视频| 国产3P成人在线视频| 亚洲欧美色综合影院| Aⅴ无码专区在线观看| 四虎无码视频| 国产热A欧美热A在线视频| 日本高清一区免费中文视频| 天天操天天干视频| 网红刘婷户外野战黑人在线免费观看| 最新91精品国产手机| 国产极品粉嫩福利姬萌白酱| 国产精品中文字幕免费| 中文字幕人妻第一区| 亚洲色欲天天天堂色欲网女| 国产又色又爽又黄的网站免费|