Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

本文作者：我在思考中

2024-04-25 16:43

導(dǎo)語：您可以免費使用Open-Sora的開源權(quán)重創(chuàng)作屬于自己的小短片。

最近，AI 科技評論發(fā)現(xiàn)，國產(chǎn)視頻生成模型 Open-Sora 在開源社區(qū)悄悄更新了！

現(xiàn)在單鏡頭支持長達(dá)16秒的視頻生成，分辨率最高可達(dá)720p，并且可以處理任何寬高比的文本到圖像、文本到視頻、圖像到視頻、視頻到視頻和無限長視頻的生成需求。我們來試試效果。

生成個橫屏圣誕雪景，發(fā)b站：

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

再生成個豎屏，發(fā)抖音：

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

還能生成單鏡頭16秒的長視頻，這下人人都能過把編劇癮了：

視頻詳見：https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ

怎么玩？指路GitHub：https://github.com/hpcaitech/Open-Sora

更酷的是，Open-Sora 依舊全部開源，包含最新的模型架構(gòu)、最新的模型權(quán)重、多時間/分辨率/長寬比/幀率的訓(xùn)練流程、數(shù)據(jù)收集和預(yù)處理的完整流程、所有的訓(xùn)練細(xì)節(jié)、demo示例和詳盡的上手教程。

1、Open-Sora技術(shù)報告全面解讀

最新功能概覽

作者團(tuán)隊在GitHub上正式發(fā)布了Open-Sora技術(shù)報告[1]，根據(jù)筆者的了解，本次更新主要包括以下幾項關(guān)鍵特性：

?支持長視頻生成；

?視頻生成分辨率最高可達(dá)720p；

?單模型支持任何寬高比，不同分辨率和時長的文本到圖像、文本到視頻、圖像到視頻、視頻到視頻和無限長視頻的生成需求；

?提出了更穩(wěn)定的模型架構(gòu)設(shè)計，支持多時間/分辨率/長寬比/幀率訓(xùn)練；

?開源了最新的自動數(shù)據(jù)處理全流程。

時空擴(kuò)散模型ST-DiT-2

作者團(tuán)隊表示，他們對Open-Sora 1.0中的STDiT架構(gòu)進(jìn)行了關(guān)鍵性改進(jìn)，旨在提高模型的訓(xùn)練穩(wěn)定性和整體性能。針對當(dāng)前的序列預(yù)測任務(wù)，團(tuán)隊采納了大型語言模型（LLM）的最佳實踐，將時序注意力中的正弦波位置編碼（sinusoidal positional encoding）替換為更加高效的旋轉(zhuǎn)位置編碼（RoPE embedding）。此外，為了增強(qiáng)訓(xùn)練的穩(wěn)定性，他們參考SD3模型架構(gòu)，進(jìn)一步引入了QK歸一化技術(shù)，以增強(qiáng)半精度訓(xùn)練的穩(wěn)定性。為了支持多分辨率、不同長寬比和幀率的訓(xùn)練需求，作者團(tuán)隊提出的ST-DiT-2架構(gòu)能夠自動縮放位置編碼，并處理不同大小尺寸的輸入。

多階段訓(xùn)練

根據(jù)Open-Sora技術(shù)報告指出，Open-Sora采用了一種多階段訓(xùn)練方法，每個階段都會基于前一個階段的權(quán)重繼續(xù)訓(xùn)練。相較于單一階段訓(xùn)練，這種多階段訓(xùn)練通過分步驟引入數(shù)據(jù)，更高效地實現(xiàn)了高質(zhì)量視頻生成的目標(biāo)。

初始階段大部分視頻采用144p分辨率，同時與圖片和 240p，480p 的視頻進(jìn)行混訓(xùn)，訓(xùn)練持續(xù)約1周，總步長81k。第二階段將大部分視頻數(shù)據(jù)分辨率提升至240p和480p，訓(xùn)練時長為1天，步長達(dá)到22k。第三階段進(jìn)一步增強(qiáng)至480p和720p，訓(xùn)練時長為1天，完成了4k步長的訓(xùn)練。整個多階段訓(xùn)練流程在約9天內(nèi)完成，與Open-Sora1.0相比，在多個維度提升了視頻生成的質(zhì)量。

統(tǒng)一的圖生視頻/視頻生視頻框架

作者團(tuán)隊表示，基于Transformer的特性，可以輕松擴(kuò)展 DiT 架構(gòu)以支持圖像到圖像以及視頻到視頻的任務(wù)。他們提出了一種掩碼策略來支持圖像和視頻的條件化處理。通過設(shè)置不同的掩碼，可以支持各種生成任務(wù)，包括：圖生視頻，循環(huán)視頻，視頻延展，視頻自回歸生成，視頻銜接，視頻編輯，插幀等。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

支持圖像和視頻條件化處理的掩碼策略

作者團(tuán)隊表示，受到UL2[2]方法的啟發(fā)，他們在模型訓(xùn)練階段引入了一種隨機(jī)掩碼策略。具體而言，在訓(xùn)練過程中以隨機(jī)方式選擇并取消掩碼的幀，包括但不限于取消掩碼第一幀、前k幀、后k幀、任意k幀等。作者還向我們透露，基于Open-Sora 1.0的實驗，應(yīng)用50%的概率應(yīng)用掩碼策略時，只需少量步數(shù)模型能夠更好地學(xué)會處理圖像條件化。在最新版本Open-Sora中，他們采用了從頭開始使用掩碼策略進(jìn)行預(yù)訓(xùn)練的方法。

此外，作者團(tuán)隊還貼心地為推理階段提供了掩碼策略配置的詳細(xì)指南，五個數(shù)字的元組形式在定義掩碼策略時提供了極大的靈活性和控制力。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

掩碼策略配置說明

支持多時間/分辨率/長寬比/幀率訓(xùn)練

OpenAI Sora的技術(shù)報告[3]指出，使用原始視頻的分辨率、長寬比和長度進(jìn)行訓(xùn)練可以增加采樣靈活性，改善幀和構(gòu)圖。對此，作者團(tuán)隊提出了分桶的策略。

具體怎么實現(xiàn)呢？通過深入閱讀作者發(fā)布的技術(shù)報告，我們了解到，所謂的桶，是（分辨率，幀數(shù)，長寬比）的三元組。團(tuán)隊為不同分辨率的視頻預(yù)定義了一系列寬高比，以覆蓋大多數(shù)常見的視頻寬高比類型。在每個訓(xùn)練周期epoch開始之前，他們會對數(shù)據(jù)集進(jìn)行重新洗牌，并將樣本根據(jù)其特征分配到相應(yīng)的桶中。具體來說，他們會將每個樣本放入一個分辨率和幀長度均小于或等于該視頻特性的桶中。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

Open-Sora 分桶策略

作者團(tuán)隊進(jìn)一步透露，為了降低計算資源的要求，他們?yōu)槊總€keep_prob和batch_size引入兩個屬性（分辨率，幀數(shù)），以減少計算成本并實現(xiàn)多階段訓(xùn)練。這樣，他們可以控制不同桶中的樣本數(shù)量，并通過為每個桶搜索良好的批大小來平衡GPU負(fù)載。作者在技術(shù)報告中對此進(jìn)行了詳盡的闡述，感興趣的小伙伴可以閱讀作者在GitHub上發(fā)布的技術(shù)報告來獲取更多的信息：https://github.com/hpcaitech/Open-Sora

數(shù)據(jù)收集和預(yù)處理流程

作者團(tuán)隊甚至對數(shù)據(jù)收集與處理環(huán)節(jié)也提供了詳盡的指南。根據(jù)作者在技術(shù)報告中的闡述，在Open-Sora 1.0的開發(fā)過程中，他們意識到數(shù)據(jù)的數(shù)量和質(zhì)量對于培育一個高效能模型極為關(guān)鍵，因此他們致力于擴(kuò)充和優(yōu)化數(shù)據(jù)集。他們建立了一個自動化的數(shù)據(jù)處理流程，該流程遵循奇異值分解（SVD）原則，涵蓋了場景分割、字幕處理、多樣化評分與篩選，以及數(shù)據(jù)集的管理系統(tǒng)和規(guī)范。同樣，他們也將數(shù)據(jù)處理的相關(guān)腳本無私地分享至開源社區(qū)。對此感興趣的開發(fā)者現(xiàn)在可以利用這些資源，結(jié)合技術(shù)報告和代碼，來高效地處理和優(yōu)化自己的數(shù)據(jù)集。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

Open-Sora 數(shù)據(jù)處理流程

2、Open-Sora 性能全方位評測

視頻生成效果展示

Open-Sora最令人矚目的亮點在于，它能夠?qū)⒛隳X中的景象，通過文字描述的方式，捕捉并轉(zhuǎn)化為動人的動態(tài)視頻。那些在思維中一閃而過的畫面和想象，現(xiàn)在得以被永久地記錄下來，并與他人分享。在這里，筆者嘗試了幾種不同的prompt，作為拋磚引玉。

比如，筆者嘗試生成了一個在冬季森林里游覽的視頻。雪剛下不久，松樹上掛滿了皚皚白雪，暗色的松針和潔白的雪花錯落有致，層次分明。

又或者，在一個靜謐夜晚中，你身處像無數(shù)童話里描繪過黑暗的森林，幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

在空中俯瞰繁華島嶼的夜景則更是美麗，溫暖的黃色燈光和絲帶一樣的藍(lán)色海水讓人一下子就被拉入度假的悠閑時光里。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

城市里的車水馬龍，深夜依然亮著燈的高樓大廈和街邊小店，又有另一番風(fēng)味。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

除了風(fēng)景之外，Open-Sora還能還原各種自然生物。無論是紅艷艷的小花：

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

還是慢悠悠扭頭的變色龍， Open-Sora都能生成較為真實的視頻。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

筆者還嘗試了多種prompt測試，還提供了許多生成的視頻供大家參考，包括不同內(nèi)容，不同分辨率，不同長寬比，不同時長。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

筆者還發(fā)現(xiàn)，僅需一個簡潔的指令，Open-Sora便能生成多分辨率的視頻短片，徹底打破創(chuàng)作限制。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

分辨率：16*240p

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

分辨率：32*240p

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

分辨率：64*360p

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

分辨率：480*854p

我們還可以喂給Open-Sora一張靜態(tài)圖片讓它生成短片

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

Open-Sora 還可以將兩個靜態(tài)圖巧妙地連接起來，輕觸下方視頻，將帶您體驗從下午至黃昏的光影變幻，每一幀都是時間的詩篇。

視頻詳見：https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ

再比如說我們要對原有視頻進(jìn)行編輯，僅需一個簡單的指令，原本明媚的森林便迎來了一場鵝毛大雪。

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

我們也能讓Open-Sora 生成高清的圖片

Open-Sora 全面開源升級：支持單鏡頭 16s 視頻生成和 720p 分辨率

值得注意的是，Open-Sora的模型權(quán)重已經(jīng)完全免費公開在他們的開源社區(qū)上，不妨下載下來試一下。由于他們還支持視頻拼接功能，這意味著你完全有機(jī)會免費創(chuàng)作出一段帶有故事性的小短片，將你的創(chuàng)意帶入現(xiàn)實。

權(quán)重下載地址：https://github.com/hpcaitech/Open-Sora

當(dāng)前局限與未來計劃

盡管在復(fù)現(xiàn)類Sora文生視頻模型的工作方面取得了不錯的進(jìn)展，但作者團(tuán)隊也謙遜地指出，當(dāng)前生成的視頻在多個方面仍有待改進(jìn)：包括生成過程中的噪聲問題、時間一致性的缺失、人物生成質(zhì)量不佳以及美學(xué)評分較低。對于這些挑戰(zhàn)，作者團(tuán)隊表示，他們將在下一版本的開發(fā)中優(yōu)先解決，以期望達(dá)到更高的視頻生成標(biāo)準(zhǔn)，感興趣的朋友不妨持續(xù)關(guān)注一下。我們期待Open-Sora社區(qū)帶給我們的下一次驚喜。

開源地址：https://github.com/hpcaitech/Open-Sora

參考文獻(xiàn)：

[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

[2] Tay, Yi, et al. "Ul2: Unifying language learning paradigms." arXiv preprint arXiv:2205.05131 (2022).

[3] https://openai.com/research/video-generation-models-as-world-simulators

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

0人收藏

相關(guān)文章

我在思考中

運營

發(fā)私信

當(dāng)月熱門文章