• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    本文作者: 陳淑瑜   2026-05-29 17:35 專題:CVPR 計算機視覺與模式識別會議
    導語:南洋理工大學MARS Lab與NPL Lab聯合打造首個具身問答棄權基準AbstainEQA,實測發現頂尖模型棄權能力僅達人類47%,為安全人機交互劃定全新標準

    來源:公眾號“視覺語言導航”

    原文鏈接:https://mp.weixin.qq.com/s/WRdwox6z8HajRGoHhdQvGA?scene=1&click_id=58


    • 作者:Tao Wu1, Chuhao Zhou1, Guangyu Zhao2, Haozhi Cao1, Yewen Pu1, Jianfei Yang1
    • 單位:1南洋理工大學,2北京大學
    • 論文標題:When Robots Should Say “I Don’t Know”: Benchmarking Abstention in Embodied Question Answering
    • 論文鏈接:https://arxiv.org/abs/2512.04597
    • 項目主頁:https://abstaineqa.github.io/
    • 代碼鏈接:https://github.com/gibrantaowu/AbstainEQA

    ? 研究背景:機器人“強行作答”,藏著巨大安全隱患

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    隨著視覺語言模型(VLMs)飛速發展,具身機器人已從實驗室走向家庭場景,能在3D室內環境中導航、感知,完成具身問答(EQA)任務,成為老人陪護、家務輔助的重要幫手。

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    所有現有EQA基準都存在一個致命前提默認機器人必須回答所有問題,完全忽略真實人機交互的復雜性。

    研究團隊通過真實用戶調研發現:

    • 收集500條人類自然提問,32.4%的問題存在信息缺失、歧義或無法回答
    • 機器人強行作答會引發兩大災難:
    1. 幻覺致安全事故:未查看浴室就謊稱地面干燥,導致老人滑倒;
    2. 導航徹底失效:指代模糊的問題讓機器人無目的漫游,完全浪費算力。

    在家庭陪護、醫療輔助等安全敏感場景,“不知道”比“瞎回答”更重要!棄權(信息不足時拒絕作答)是可靠人機交互的最低要求,卻長期被學界忽視。

    ? 核心貢獻:四大突破,重新定義具身問答標準

    1. 首創棄權分類體系:基于人類認知理論+真實交互數據,提煉5類必須棄權的場景,為具身問答不確定性提供系統化判定依據。
    2. 發布 AbstainEQA 基準:全球首個人工標注的具身問答棄權基準,包含1636個棄權案例+1636個常規案例,經數據擴充后總樣本達16360條,配套幀級視覺證據標注。
    3. 全方位模型評測:從模型規模、提示策略、微調方法三大維度,系統性測試當前頂尖具身模型,揭露現有方法的核心缺陷
    4. 深度錯誤分析:明確模型棄權失效的根本原因,為后續安全、可靠的具身交互研究指明方向。

    ? 問題描述:從“必須作答”到“學會棄權”

    本文將傳統具身問答(EQA)升級為AbstainEQA,核心要求:智能體在證據不足、問題歧義時,主動棄權而非強行作答

    形式化定義(極簡版)

    給定用戶問題和機器人視覺觀測序列,機器人需自主決策:

    • 選擇answer:基于視覺證據給出準確答案;
    • 選擇abstain:明確說明無法回答的理由。

    兩大評測場景

    1. 情景記憶EQA(EM-EQA):機器人僅用已看到的畫面作答,不額外探索;
    2. 主動EQA(A-EQA):機器人可在限定步數內導航探索,再決定作答或棄權。

    ? AbstainEQA 基準:科學定義“什么時候該說不知道”

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    1. 棄權需求:真實交互中,1/3問題無法回答

    團隊招募50名普通用戶,基于HM3D、ScanNet真實室內場景生成自然提問,最終證實:32.4%的人類問題需要機器人棄權,棄權是人機交互的固有需求。

    2. 五大棄權類型(核心判定標準)

    基于Norman人類認知錯誤理論,精準劃分5類必須棄權的場景,覆蓋所有真實歧義情況:

    類型
    核心含義
    通俗場景示例
    可執行性限制(AL)
    需物理交互,純視覺無法完成
    問“盒子里有什么”,機器人打不開盒子
    指代不明確(RU)
    描述對應多個物體,無法定位
    問“白色柜子上有什么”,房間有多個白柜
    信息不可用(IU)
    關鍵時空信息缺失,無法推理
    問“誰把花瓶放桌上”,機器人沒看到過程
    錯誤預設(FP)
    問題前提與事實矛盾
    問“床上泰迪熊材質”,床上根本沒有泰迪熊
    偏好依賴(PD)
    依賴主觀審美,無客觀答案
    問“墻上的畫好看嗎”,無統一標準答案

    3. 數據集亮點

    • 均衡配比:1636個棄權案例 + 1636個常規可回答案例,公平評測;
    • 幀級標注:人工標記支撐答案/棄權的關鍵畫面,綁定視覺證據;
    • 數據擴充:通過LLM生成5種語義變體,覆蓋多樣化表達。

    ? 評估標準:三維度科學評測,結果可信可復現

    為全面衡量機器人的棄權能力,團隊設計三維度評估體系,并通過人類驗證確保結果可靠:

    1. 回答準確率:用GPT-4o做語義匹配,評估機器人答案的準確性,避免主觀偏差。
    2. 棄權識別能力:核心計算召回率、精確率、F1值、準確率,判斷機器人能否精準識別需要棄權的問題。
    3. 具身導航效率:針對主動EQA,評測導航成功率、探索幀數、路徑長度,看棄權問題是否影響機器人行動。
    4. 人類驗證:LLM自動評估與人類標注的皮爾遜相關系數達0.88,評估結果高度可靠。

    ? 實驗結果:顛覆認知!現有模型根本不會“說不知道”

    團隊圍繞4個核心問題展開實驗,結論直擊領域痛點:

    1. 頂尖模型棄權能力,僅達人類一半

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布
    • 最優模型Gemini-2.5-Pro:棄權召回率42.79% ;
    • 普通人類:棄權召回率91.17% ;
    • 模型僅在“信息不可用”上表現稍好,指代模糊、主觀偏好類問題幾乎完全失效
    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    2. 模型做大沒用,跨模態對齊才是關鍵

    • 同系列模型(如Qwen):參數擴大,棄權能力小幅提升;
    • 跨模型對比:參數規模不決定棄權能力,模型架構、跨模態對齊才是核心。

    3. 提示、推理都是“表面功夫”

    • 加提示詞:棄權召回率飆升,但精確率暴跌,機器人開始過度棄權;
    • 加推理步驟:大模型棄權能力不升反降,只會說廢話,不會真判斷。

    4. 微調模型:全是“作弊”,只看文字不看畫面

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    監督微調(SFT)模型看似指標拉滿,實則嚴重過擬合文本特征

    • 隨機刪掉/換掉視覺畫面,模型性能幾乎不變;
    • 同樣的問題,不管場景如何,答案完全一樣,完全無視視覺證據。

    5. 棄權問題,直接摧毀導航效率

    歧義問題下:

    • 導航成功率:77.17% → 61.41% ,暴跌15個百分點;
    • 機器人陷入兩極分化:要么過早停止探索,要么無目的亂逛,導航完全失效。

    ? 研究結論:具身機器人,先學會“說不知道”

    1. 現有具身問答模型,完全不具備可靠棄權能力,無法識別歧義、信息缺失問題,暗藏安全風險;
    2. 模型縮放、提示工程、顯式推理、監督微調,都只是表面優化,模型依賴文字捷徑,未真正結合視覺證據;
    3. 歧義問題會導致具身導航低效、不穩定,嚴重影響人機交互安全性與實用性。

    未來方向:研發綁定視覺證據的棄權推理模型、打造不確定性感知導航策略、消除文本捷徑的訓練范式,讓機器人真正學會“知之為知之,不知為不知”。

    CVPR-2026 Highlight | 機器人如何“知之為知之”!AbstainEQA:具身問答棄權能力基準重磅發布

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: AV在线亚洲天堂| 丁香激情网| 天啦噜国产精品亚洲精品| 337p日本欧洲亚洲大胆艺术图| 国产高清在线观看av片麻豆| 人妻无码| 国产一区二区三区AV在线无码观看 | 亚洲av中文一区二区| 久久国内精品一区二区三区| 免费人成视频在线观看视频| 亚洲人成网亚洲欧洲无码久久| 精品国产乱一区二区三区| 亚洲人成网站在线播放无码| 中文字幕XXXXX| 两个人看的视频高清在线www| 老司机亚洲精品一区二区| av无码不卡| 宅男aV一区二区三区| 欧美成人精品a∨在线观看| 国产一区二区日韩在线| 麻豆国产| 中文字幕人妻色欲| 亚洲日韩AV秘 无码一区二区 | 亚洲国产长腿丝袜av天堂| 亚洲色在线v中文字幕| 国产suv精品一区二区33| 国产成人在线小视频| 国产3P成人在线视频| 亚洲欧美色综合影院| Aⅴ无码专区在线观看| 四虎无码视频| 国产热A欧美热A在线视频| 日本高清一区免费中文视频| 天天操天天干视频| 网红刘婷户外野战黑人在线免费观看| 最新91精品国产手机| 国产极品粉嫩福利姬萌白酱| 国产精品中文字幕免费| 中文字幕人妻第一区| 亚洲色欲天天天堂色欲网女| 国产又色又爽又黄的网站免费|