• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    本文作者: 陳淑瑜   2026-06-02 17:13 專題:CVPR 計算機視覺與模式識別會議
    導語:由 CMU 聯(lián)合哈佛大學組成的研究團隊推出了 CHAI(Critique-based Human-AI Oversight),一整套從「標注體系」「可擴展監(jiān)督」

    來源:公眾號“機器之心”

    原文https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA?scene=1&click_id=30


    團隊一作林之秋(Zhiqiu Lin)是卡內基梅隆大學(CMU)機器人研究所的博士,研究方向涵蓋視覺 - 語言大模型的評估、數(shù)據(jù)與生成;前作 CameraBench 曾獲 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即將前往麻省理工學院(MIT)攻讀博士,專注于多模態(tài)大模型。本工作由 CMU 與哈佛大學合作完成。


    先來做一個小實驗:把希區(qū)柯克變焦(dolly zoom)、拉焦(rack focus)、荷蘭角(Dutch angle)或變速剪輯(speed ramp)這幾個詞,輸入到大部分主流視頻生成器里。結果幾乎都一樣,你只會得到一個普通的推鏡,或一段平庸的慢動作。


    原因很簡單:這些技法對應著電影人之間通用的一套「鏡頭語言」,而當前的視覺 - 語言大模型幾乎聽不懂。


    近日,由 CMU 聯(lián)合哈佛大學組成的研究團隊推出了 CHAI(Critique-based Human-AI Oversight),一整套從「標注體系」「可擴展監(jiān)督」到「后訓練方法」再到「視頻生成」的完整方案。該工作已被 CVPR 2026 接收為 Highlight 論文(Top 3%)


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro
    • ? 論文鏈接:https://arxiv.org/abs/2604.21718

    • ? 代碼:https://github.com/chancharikmitra/CHAI


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    圖 1:CHAI 的整體方案。上半(紅)是過往視頻字幕工作的三大短板:缺乏統(tǒng)一規(guī)范、僅用人類或模型標注、僅憑輸出對比做后訓練;下半(藍)是 CHAI 的對應方案:精準的結構化規(guī)范、可擴展的人機監(jiān)督、基于顯式偏好與批改的后訓練,最終反哺出更專業(yè)的視頻生成。


    概述:CHAI 的四塊拼圖


    CHAI 不是一個單獨的模型,而是一整套面向精準視頻語言的落地方案,由四塊拼圖組成:


    1. 標注體系(Specification):覆蓋主體、場景、動作、空間構圖和移動、鏡頭參數(shù)和運動 5 大維度,由 200+ 個與職業(yè)攝影師共同設計的視覺基元支撐。

    2. 可擴展監(jiān)督(Scalable Oversight):讓 LLM 起草字幕,由人類專家給出批改(critique),指出錯誤并提供修正,再交由 AI 改寫。這一過程讓 AI 負責寫作,人類專注糾錯,各司其長。

    3. 后訓練方法(Post-Training):基于(初稿,批改,終稿),同時訓練字幕、獎勵模型與批改模型。團隊訓練的 Qwen3-VL-8B 開源小模型得以反超閉源的 Gemini-3.1-Pro 與 GPT-5。

    4. 更好的視頻生成(Better Generation):用后訓練好的模型重新對專業(yè)視頻打字幕,再微調 Wan2.2,使其能聽懂長達 400 英文詞的電影級指令,精準生成希區(qū)柯克變焦、拉焦、荷蘭角、變速、等距視角等專業(yè)攝影技法。


    一、標注體系:把電影人的鏡頭語言寫下來


    過去的視頻文本數(shù)據(jù)集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕規(guī)范,常見問題包括:混淆 dolly-in(推軌)與 zoom-in(變焦),遺漏關鍵相機與變焦細節(jié),用「氛圍感足」「讓人熱血沸騰」等主觀描述代替客觀視覺內容。


    電影人以及更廣泛的視頻創(chuàng)作者則沒有這個問題。他們用拉焦(rack focus)、荷蘭角(Dutch angle)、中景(medium full shot)這樣的專業(yè)術語在片場與團隊實現(xiàn)了精準的溝通、協(xié)作。CHAI 正是把這套影視行業(yè)內的通用詞匯整理成了一套清晰的標注體系


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    圖 2:與 100+ 位職業(yè)視頻創(chuàng)作者歷時一年共建的標注體系。左(紅):過往數(shù)據(jù)集的三類典型問題,包括術語含混、信息缺失、主觀描述;右(藍):CHAI 的結構化標注體系及配套的標注規(guī)則與教程。


    CHAI 的字幕標注覆蓋 5 大維度:


    • 主體(Subject):類型、外觀、姿態(tài)、主體關系等

    • ?? 場景(Scene):視角、疊加元素、環(huán)境、時間等

    • ? 動作(Motion):動作行為、人物互動、群體動態(tài)等

    • ? 空間構圖和移動(Spatial):景別、畫面位置、縱深、空間運動等

    • ? 鏡頭參數(shù)和運動(Camera):機位高度、角度、焦距、聚焦、穩(wěn)定度、運動軌跡等


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    圖 3:CHAI 的視頻語言分類體系:各一級維度進一步細分為多個子維度,并由 200 余個視覺與運動基元支撐,實現(xiàn)對視頻內容的精細化表達。


    二、可擴展監(jiān)督:AI 起草,人類批改


    規(guī)范告訴你「描述什么」,但「誰來寫」仍是個問題。


    人類親手寫的字幕常見問題有:錯別字、語法錯誤、事件順序混亂。模型寫的字幕:行文流暢,卻經(jīng)常憑空捏造畫面里沒有的物體和動作(模型幻覺)。


    CHAI 的核心思路是可擴展監(jiān)督(Scalable Oversight):讓模型負責寫作,讓人類專注發(fā)現(xiàn)字幕中的視覺與動作錯誤,各司其長


    CHAI 的標注流程由此被重新設計為「AI— 專家 —AI」的三段式協(xié)作:模型先按既定規(guī)范生成一份覆蓋全面的「pre-caption」初稿,專家隨后在初稿基礎上指出錯誤并提出修改建議(critique),無需從零撰寫字幕;模型再依據(jù)專家的批改意見進行改寫,生成準確的「post-caption」終稿。


    同時,CHAI 引入同行評審獎勵機制:標注越準確,獎勵越高;審核糾錯同樣有獎勵。這一舉措顯著提升了標注的質量。


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    圖 4:左(紅):傳統(tǒng)純人工或純模型標注的三類問題,包括視覺幻覺、行文糟糕、細節(jié)不準;右(藍):CHAI 的可擴展監(jiān)督框架。AI 基于基元生成初稿(pre-caption),人類用批改(critique)把幻覺與細節(jié)錯誤指出來,再由 AI 生成終稿(post-caption);標注員與審核員之間則通過同行評審獎勵機制相互制衡。


    把標注員工作重心從「寫作」轉向「校對」,他們對單個視頻的認知負擔得以顯著降低,卻能產(chǎn)出準確度更高的 200–400 詞長字幕。


    三、后訓練效果:8B 小模型反超 GPT-5 與 Gemini-3.1-Pro


    CHAI 流水線產(chǎn)出的不只是字幕,而是(pre-caption, critique, post-caption)三元組:一份數(shù)據(jù),同時可以訓練三種模型能力,包括字幕生成、獎勵建模、批改生成。


    CHAI 團隊發(fā)現(xiàn):批改的質量,決定了模型能力


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    圖 5:一條好的批改必須同時滿足三個屬性:準確(precision)、完整(recall)、有建設性(constructive)。CHAI 的標注機制通過強制標注員撰寫高質量批改,直接指導模型改寫,自然實現(xiàn)了這三點。


    為了證明這一點,團隊做了一組對比實驗:分別削弱批改的某一項屬性,觀察對下游任務的影響。


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    研究得出三項關鍵結論。其一,在模型訓練時加入獎勵(reward)和批改(critique)的數(shù)據(jù)能夠顯著提升 SFT 與 RL 的效果,僅 8B 參數(shù)的 Qwen3-VL 經(jīng)過后訓練,便在多項關鍵評測上反超閉源的 Gemini-3.1-Pro 與 GPT-5。其二,批改質量是真正的瓶頸所在,準確性、完整性、和建設性三者缺一不可;然而過往工作(如 OpenAI GDC、MM-RLHF)所收集的批改樣本中,超過 50% 屬于非建設性反饋。其三,推理時擴展(Inference-Time Scaling)同樣適用于這一框架,以同一份獎勵模型進行 best-of-N 選擇,無需新增數(shù)據(jù),性能即可持續(xù)提升。


    四、更準的理解 → 更好的生成


    視頻字幕做得更準之后,最直接的下游應用就是視頻生成


    研究團隊用后訓練好的字幕模型,重新對大規(guī)模專業(yè)視頻(電影、廣告、MV、游戲畫面)進行打標,再以這些數(shù)據(jù)微調 Wan2.2。結果:模型可以聽懂長達 400 詞的電影級指令,對那些開源生成器(Wan2.2)普遍翻車的技法實現(xiàn)精準生成。


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro
    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    圖 6:在重新打標的專業(yè)視頻上微調后,Wan2.2 對詳細的電影級指令顯著更忠實,可以精準執(zhí)行希區(qū)柯克變焦(上)、保持 2.5D 等距視角(下)等過往視頻模型頻繁失敗的復雜技法。



    為什么不用眾包?為什么過去的標注總是失敗?


    在請來職業(yè)創(chuàng)作者之前,團隊也嘗試過眾包工人。結果?眾包標注員仍然分不清 推軌(dolly-in)與 變焦 (zoom-in)、把全景鏡頭(full shot)叫成 特寫(close-up shot)、把魚眼鏡頭(fisheye lens)造成的建筑物變形描述成「圓形的建筑」。


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    圖 7:眾包標注員描述常見鏡頭技法時的典型錯誤。把鳥瞰鏡頭叫「鳥瞰視圖」、把魚眼鏡頭看作「圓形建筑」、把推焦鏡頭描述為「推軌鏡頭」等,反映出他們缺乏對鏡頭語言的基本視覺詞匯。


    為進一步驗證這一判斷,團隊系統(tǒng)評估了 2016 至 2025 年間發(fā)布的 8 個公開視頻 - 文本數(shù)據(jù)集(包括 MSR-VTT、PerceptionLM、Dream1K 等),結果指向兩類反復出現(xiàn)的問題。其一源于標注規(guī)則缺失,術語含混、關鍵信息缺失;其二源于監(jiān)督不足,導致行文混亂與細節(jié)失真。無論擴大模型規(guī)模還是增加數(shù)據(jù)體量,都難以解決,根本問題在于流程,必須從數(shù)據(jù)標注源頭入手。這一發(fā)現(xiàn)直接促成了 CHAI 團隊和 100+ 位職業(yè)視頻創(chuàng)作者的長期合作。


    寫在最后:開源生態(tài)


    為了支持后續(xù)研究與產(chǎn)業(yè)落地,CHAI 團隊完整開源了:標注體系、培訓教材、標注平臺、質控流程、數(shù)據(jù)、代碼與模型。


    ? 項目主頁:https://linzhiqiu.github.io/papers/chai/


    CHAI 是該 CMU 團隊「精準視頻語言」研究計劃中的一環(huán)。同期推進的還有兩項工作:CameraBench(NeurIPS'25 Spotlight,入選率前 3%)作為相機運動理解的前作基準,包含約 3000 個專家標注視頻、一套完整的運動基元分類體系,以及對 SfM 與 VLM 方法的系統(tǒng)性評測;Moodio 與 CameraBench-Pro(2026 年 5 月發(fā)布)則在此基礎上更進一步,基于 225 個電影級基元與 150 萬余條專業(yè)標注,面向專業(yè)視頻制作場景打造 AI 協(xié)作工具。


    CVPR 2026 Highlight|讓AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

    分享:
    相關文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产精品天天干| 国产成人精品免费视频app软件| 久久亚洲精品成人AV无码网址| 狠狠色综合久久丁香婷婷| 国产线播放免费人成视频播放| 日韩少妇激情一区二区| 亚洲精品中文字幕尤物综合| 色狠狠色婷婷丁香五月| 色婷婷7777| 99久久精品九九亚洲精品| 理论片午午伦夜理片影院99| 色五月网| 亚洲人成色无码yyyy| 综合色色综合| 国产欧美一区二区日本加勒比| 99xxxx激情综合网| 色噜噜狠狠色综合无码久久欧美| 精品成人AV一区二区三区| 国产精品日韩中文字幕| 女同久久精品国产99国| 操你av| 又大又粗又爽18禁免费看| A毛片终身免费观看网站| 国产办公室秘书无码精品99| 综合国产| 人妻精品动漫h无码| AV黄色网址| 国产无遮挡无码视频在线观看| 尤物AV无码色AV无码麻豆| 无码人妻精品丰满熟妇区| 麻豆亚州无矿码专区视频| 欧美 亚洲 国产 视频 小说| 日日摸夜夜爽| 福利天天看| 无码人妻精品一区二| 国产精品久久久久影院色| JULIA一区二区三区?在线观看| 2021国产精品视频网站| 线在女熟产国| 无码人妻丰满熟妇区五十路| 国产精品视频中文字幕|