Pieter Abbeel 新工作“大世界模型”：輕松玩轉1小時長視頻，一對一QA視頻內容細節

本文作者：賴文昕

2024-03-07 15:13

導語：導語：伯克利發布的“大世界模型”，究竟大在哪里？

作者：賴文昕

編輯：陳彩嫻

自3天前Sora發布以來，由圖靈獎得主、Meta首席科學家Yann LeCun提出的“世界模型”又一次引起了廣泛關注。

“世界模型”作為Sora的一大核心亮點，被OpenAI寫在技術報告中。但Sora是否真的如Open AI所說，是一個世界模型，卻引起了行業內的爭論。

在Yann LeCun的愿景中，世界模型是一個能夠學習世界如何運作的內在規律的內部模型，可以更快速地學習，為完成復雜任務做出計劃，并且隨時應對不熟悉的新情況，所以它很有可能克服目前限制最先進的AI系統發展的難關。

而在這場爭論持續之際， UC Berkeley（加州大學伯克利分校）發布了一項名為“Large World Model（LWM）”的最新研究成果，今日已成功登上GitHub榜首。

值得一提的是，兩位華人學者Hao Liu和Wilson Yan為共同一作,指導老師是吳恩達開門大弟子、伯克利人工智能實驗室主任Pieter Abbeel與計算機副教授Matei Zaharia。兩位教授的谷歌學術引用次數均十分耀眼，分別高達13.8萬次與7.4萬次。

論文鏈接：https://arxiv.org/pdf/2402.08268.pdf

為了應對由于內存限制、計算復雜性和數據集有等重大挑戰，這個團隊構建了一個由不同視頻和書籍組成的大型數據集，以Hao Liu先前提出的RingAttention技術為基礎，對長序列進行可伸縮訓練，并將上下文大小從4K逐漸增加到100萬tokens，一次可以分析1小時長度的視頻。

100萬token，1小時長視頻，它還開源

大模型的發展進程快得令人驚嘆，但是仍存在不少技術痛點。比如，目前的語言模型無法理解世界上某些難以用語言描述的問題，且難以處理復雜冗長的任務。

針對這個難題，該團隊提出了“Large World Model（LWM）”，因為視頻序列能提供語言和靜態圖像中沒有的、有價值的時間信息，這使得它們對于語言的聯合建模具有特別作用。這樣的模型可以更好地理解人類文本知識和物理世界，從而實現更廣泛的人工智能能力來幫助人類。

這個“大世界模型”是否確如其名呢？

在研究報告的開篇，團隊便自信展示了LWM與GPT-4V、Gemini Pro Vision與Video-LLaVA的對比結果：將長達1小時的油管視頻輸入并根據視頻內容細節提問后，只有LWM能提供準確的答復。

而除了能讀懂理解長視頻外，LWM在超長文本任務的表現同樣亮眼。LWM 可以高精度地檢索 1M 上下文中的事實。針對Gemini Pro 和 GPT-4各自的最大上下文長度（32K 和 128K）進行單針檢索比較時，LWM在各個指標上的表現均大幅領先。

團隊對LWM的研究成果作出了以下總結：

該研究在長視頻和語言序列上訓練了一個擁有極大上下文尺寸的 transformers 模型，從而設立了新的檢索任務和長視頻理解方面的標桿。

為了克服視覺 - 語言訓練帶來的挑戰，該研究采取了以下措施，包括使用掩碼序列以混合不同長度的序列、損失加權以平衡語言和視覺、以及使用模型生成的問答數據來處理長序列對話。

通過 RingAttention、掩碼序列打包等方法，可以訓練數百萬長度的多模態序列。

完全開源 7B 參數系列模型，其能夠處理超過 100 萬 token 的長文本文檔（LWM-Text、LWM-Text-Chat）和視頻（LWM、LWM-Chat）。

分階段的漸進式訓練，模型能力逐步升級

是什么訓練方法讓LWM具備如此亮眼的能力呢？

LWM的訓練步驟主要分為兩個階段：第一階段是學習長上下文語言模型（Learning Long-Context Language Models），第二階段是學習長上下文視覺-語言模型（Learning Long-Context Vision-Language Models）。

第一階段時，團隊將研究重點分為了上下文擴展、訓練步驟、聊天微調和語言結果評估四個部分。

在上下文擴展中，他們使用RingAttention技術，通過分塊計算和序列并行，理論上可以擴展到無限上下文，僅受限于可用設備數量。

RingAttention作為一個環形結構來組織blocks，這樣每個block只需要與其相鄰的block進行通信、交換信息，此結構能夠大大減少通信開銷。

分塊計算則是將長序列分割成多個較小的blocks，每個block包含固定數量的tokens。這樣，模型只需要計算每個block內的注意力權重，而不是整個序列。

在訓練過程中，序列并行的方法可以并行處理多個block，每個block由不同的GPU處理，使模型能在多個設備上同時處理序列的不同部分，從而提高了訓練效率。

同時，由于RingAttention 支持漸進式訓練，讓模型可以從處理較短的序列開始，然后逐步增加序列長度。于是團隊就采用了漸進式訓練方法，從32K tokens開始，逐步增加到1M tokens，以有效擴展上下文大小。這意味著此方法有助于模型逐步學習處理更長序列的能力，同時保持訓練效率。

到了訓練步驟的部分，團隊會初始化模型參數，然后逐步增加上下文長度，分為32K、128K、256K、512K和1M tokens共5個階段，且在每個階段，會使用不同版本的Books3數據集進行訓練，這些數據集經過過濾，以適應當前的上下文長度。

針對聊天微調，團隊構建了模型生成的問答數據集，通過將文檔分割成固定大小的block，然后使用短上下文語言模型生成問題和答案對。而在長上下文長度（如32K tokens）下，則是通過連接相鄰的block和在序列末尾添加相關的問答對來構建單個32K tokens的示例。

在第一階段的最后，團隊對于LWM的語言能力進行了單針檢索、多針檢索、多文本評估和聊天評估。

值得一提的是，此研究還對比了具有 4K 上下文的 Llama2-7B 模型與LWM-Text（從 32K 到 1M）的語言能力。評估涵蓋了各種語言任務，證明擴大上下文大小不會影響短上下文任務的性能。結果表明，LWM在32K 到 1M長度下各任務中表現得同樣好，甚至更好。

這一證據表明上下文擴展不存在負面影響，突顯了模型適應不同任務要求而不會在較短上下文中損失效率的能力。

在完成語言模型的訓練后，團隊開啟了他們的第二階段——學習長上下文視覺-語言模型。在此階段中，團隊也將研究工作分為三個板塊，即視覺架構修改、訓練步驟和評估結果。

對于視覺架構修改，他們使用了預訓練的VQGAN將圖像和視頻幀轉換為離散tokens，并且引入新的tokens來區分文本生成的結束和視覺生成的開始，以及視頻幀的結束。

而在訓練步驟中，團隊從LWM-Text-1M文本模型開始初始化，然后在大量結合文本-圖像和文本-視頻數據上進行漸進式訓練。他們分別在1K、8K、32K、128K和1M tokens的序列長度上進行訓練，同樣地，每個階段都是從先前的較短序列長度階段初始化。

在最終的評估結果上，團隊在長視頻理解、圖像理解和短視頻理解等任務上評估了LWM的模型性能并展示了其在處理長視頻和圖像生成方面的優秀能力。

結語

Sora在2024年拉響了大模型比拼的第一槍，使得文生視頻技術躍為時下焦點，也讓“世界模型”變得似乎不再遙不可及。

在應對長文本、視頻甚至是多模態技術時，世界模型對物理世界規律的理解與應用，或將成為各家大模型選手能否在角逐中取勝的關鍵。

雷峰網(公眾號：雷峰網)AI 科技評論將持續關注大模型領域動態，歡迎添加anna042023，交流認知，互通有無

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

賴文昕

資深編輯

關注具身智能。

發私信

當月熱門文章