來源:公眾號“視覺語言導航”
原文鏈接:https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58
- 作者:Tao Wu1, Chuhao Zhou1, Guangyu Zhao2, Haozhi Cao1, Yewen Pu1, Jianfei Yang1
- 論文標題:When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
- 論文鏈接:https://arxiv.org/abs/2512.04597
- 項目主頁:https://abstaineqa.github.io/
- 代碼鏈接:https://github.com/gibrantaowu/AbstainEQA
? 研究背景:機器人“強行作答”,藏著巨大安全隱患

隨著視覺語言模型(VLMs)飛速發展,具身機器人已從實驗室走向家庭場景,能在3D室內環境中導航、感知,完成具身問答(EQA)任務,成為老人陪護、家務輔助的重要幫手。

但所有現有EQA基準都存在一個致命前提:默認機器人必須回答所有問題,完全忽略真實人機交互的復雜性。
研究團隊通過真實用戶調研發現:
- 收集500條人類自然提問,32.4%的問題存在信息缺失、歧義或無法回答;
- 幻覺致安全事故:未查看浴室就謊稱地面干燥,導致老人滑倒;
- 導航徹底失效:指代模糊的問題讓機器人無目的漫游,完全浪費算力。
在家庭陪護、醫療輔助等安全敏感場景,“不知道”比“瞎回答”更重要!棄權(信息不足時拒絕作答)是可靠人機交互的最低要求,卻長期被學界忽視。
? 核心貢獻:四大突破,重新定義具身問答標準
- 首創棄權分類體系:基于人類認知理論+真實交互數據,提煉5類必須棄權的場景,為具身問答不確定性提供系統化判定依據。
- 發布 AbstainEQA 基準:全球首個人工標注的具身問答棄權基準,包含1636個棄權案例+1636個常規案例,經數據擴充后總樣本達16360條,配套幀級視覺證據標注。
- 全方位模型評測:從模型規模、提示策略、微調方法三大維度,系統性測試當前頂尖具身模型,揭露現有方法的核心缺陷。
- 深度錯誤分析:明確模型棄權失效的根本原因,為后續安全、可靠的具身交互研究指明方向。
? 問題描述:從“必須作答”到“學會棄權”
本文將傳統具身問答(EQA)升級為AbstainEQA,核心要求:智能體在證據不足、問題歧義時,主動棄權而非強行作答。
形式化定義(極簡版)
給定用戶問題和機器人視覺觀測序列,機器人需自主決策:
兩大評測場景
- 情景記憶EQA(EM-EQA):機器人僅用已看到的畫面作答,不額外探索;
- 主動EQA(A-EQA):機器人可在限定步數內導航探索,再決定作答或棄權。
? AbstainEQA 基準:科學定義“什么時候該說不知道”

1. 棄權需求:真實交互中,1/3問題無法回答
團隊招募50名普通用戶,基于HM3D、ScanNet真實室內場景生成自然提問,最終證實:32.4%的人類問題需要機器人棄權,棄權是人機交互的固有需求。
2. 五大棄權類型(核心判定標準)
基于Norman人類認知錯誤理論,精準劃分5類必須棄權的場景,覆蓋所有真實歧義情況:
| | |
|---|
| 可執行性限制(AL) | | |
| 指代不明確(RU) | | |
| 信息不可用(IU) | | |
| 錯誤預設(FP) | | |
| 偏好依賴(PD) | | |
3. 數據集亮點
- 均衡配比:1636個棄權案例 + 1636個常規可回答案例,公平評測;
- 幀級標注:人工標記支撐答案/棄權的關鍵畫面,綁定視覺證據;
- 數據擴充:通過LLM生成5種語義變體,覆蓋多樣化表達。
? 評估標準:三維度科學評測,結果可信可復現
為全面衡量機器人的棄權能力,團隊設計三維度評估體系,并通過人類驗證確保結果可靠:
- 回答準確率:用GPT-4o做語義匹配,評估機器人答案的準確性,避免主觀偏差。
- 棄權識別能力:核心計算召回率、精確率、F1值、準確率,判斷機器人能否精準識別需要棄權的問題。
- 具身導航效率:針對主動EQA,評測導航成功率、探索幀數、路徑長度,看棄權問題是否影響機器人行動。
- 人類驗證:LLM自動評估與人類標注的皮爾遜相關系數達0.88,評估結果高度可靠。
? 實驗結果:顛覆認知!現有模型根本不會“說不知道”
團隊圍繞4個核心問題展開實驗,結論直擊領域痛點:
1. 頂尖模型棄權能力,僅達人類一半

- 最優模型Gemini-2.5-Pro:棄權召回率42.79% ;
- 模型僅在“信息不可用”上表現稍好,指代模糊、主觀偏好類問題幾乎完全失效。

2. 模型做大沒用,跨模態對齊才是關鍵
- 同系列模型(如Qwen):參數擴大,棄權能力小幅提升;
- 跨模型對比:參數規模不決定棄權能力,模型架構、跨模態對齊才是核心。
3. 提示、推理都是“表面功夫”
- 加提示詞:棄權召回率飆升,但精確率暴跌,機器人開始過度棄權;
- 加推理步驟:大模型棄權能力不升反降,只會說廢話,不會真判斷。
4. 微調模型:全是“作弊”,只看文字不看畫面

監督微調(SFT)模型看似指標拉滿,實則嚴重過擬合文本特征:
- 同樣的問題,不管場景如何,答案完全一樣,完全無視視覺證據。
5. 棄權問題,直接摧毀導航效率
歧義問題下:
- 導航成功率:77.17% → 61.41% ,暴跌15個百分點;
- 機器人陷入兩極分化:要么過早停止探索,要么無目的亂逛,導航完全失效。
? 研究結論:具身機器人,先學會“說不知道”
- 現有具身問答模型,完全不具備可靠棄權能力,無法識別歧義、信息缺失問題,暗藏安全風險;
- 模型縮放、提示工程、顯式推理、監督微調,都只是表面優化,模型依賴文字捷徑,未真正結合視覺證據;
- 歧義問題會導致具身導航低效、不穩定,嚴重影響人機交互安全性與實用性。
未來方向:研發綁定視覺證據的棄權推理模型、打造不確定性感知導航策略、消除文本捷徑的訓練范式,讓機器人真正學會“知之為知之,不知為不知”。