首頁(yè) > 區(qū)塊鏈 > 微軟37頁(yè)論文逆向工程Sora，得到了哪些結(jié)論？

微軟37頁(yè)論文逆向工程Sora，得到了哪些結(jié)論？

時(shí)間：2024-03-01 15:07:41

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #微軟37頁(yè)論文逆向工程Sora，得到了哪些結(jié)論？#】

報(bào)道：

圖片來(lái)源：由無(wú)界AI生成

文章來(lái)源：機(jī)器之心

作者：機(jī)器之心編輯部

一篇論文回顧 Sora 文生視頻技術(shù)的背景、技術(shù)和應(yīng)用。

追趕 Sora，成為了很多科技公司當(dāng)下階段的新目標(biāo)。研究者們好奇的是：Sora 是如何被 OpenAI 發(fā)掘出來(lái)的？未來(lái)又有哪些演進(jìn)和應(yīng)用方向？

Sora 的技術(shù)報(bào)告披露了一些技術(shù)細(xì)節(jié)，但遠(yuǎn)遠(yuǎn)不足以窺其全貌。

在最近的一篇文章中，微軟研究院和理海大學(xué)的研究者根據(jù)已發(fā)表的技術(shù)報(bào)告和逆向工程，首次全面回顧了 Sora 的背景、相關(guān)技術(shù)、新興應(yīng)用、當(dāng)前局限和未來(lái)機(jī)遇。

論文標(biāo)題：Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
論文鏈接：https://arxiv.org/pdf/2402.17177.pdf

背景

在分析 Sora 之前，研究者首先盤(pán)點(diǎn)了視覺(jué)內(nèi)容生成技術(shù)的沿襲。

在深度學(xué)習(xí)革命之前，傳統(tǒng)的圖像生成技術(shù)依賴(lài)于基于手工創(chuàng)建特征的紋理合成和紋理映射等方法。這些方法在生成復(fù)雜而生動(dòng)的圖像方面能力有限。

如圖 3 所示，在過(guò)去十年中，視覺(jué)類(lèi)的生成模型經(jīng)歷了多樣化的發(fā)展路線。

生成對(duì)抗網(wǎng)絡(luò)（GAN）和變分自動(dòng)編碼器（VAE）的引入標(biāo)志著一個(gè)重要的轉(zhuǎn)折點(diǎn)，因?yàn)樗诟鞣N應(yīng)用中都具有非凡的能力。隨后的發(fā)展，如流模型和擴(kuò)散模型，進(jìn)一步增強(qiáng)了圖像生成的細(xì)節(jié)和質(zhì)量。人工智能生成內(nèi)容（AIGC）技術(shù)的最新進(jìn)展實(shí)現(xiàn)了內(nèi)容創(chuàng)建的民主化，使用戶能夠通過(guò)簡(jiǎn)單的文本指令生成所需的內(nèi)容。

在 BERT 和 GPT 成功將 Transformer 架構(gòu)應(yīng)用于 NLP 之后，研究人員嘗試將其遷移到 CV 領(lǐng)域，比如 Transformer 架構(gòu)與視覺(jué)組件相結(jié)合，使其能夠應(yīng)用于下游 CV 任務(wù)，包括 Vision Transformer (ViT) 和 Swin Transformer ，從而進(jìn)一步發(fā)展了這一概念。在 Transformer 取得成功的同時(shí)，擴(kuò)散模型也在圖像和視頻生成領(lǐng)域取得了長(zhǎng)足進(jìn)步。擴(kuò)散模型為利用 U-Nets 將噪聲轉(zhuǎn)換成圖像提供了一個(gè)數(shù)學(xué)上合理的框架，U-Nets 通過(guò)學(xué)習(xí)在每一步預(yù)測(cè)和減輕噪聲來(lái)促進(jìn)這一過(guò)程。

自 2021 年以來(lái)，能夠解釋人類(lèi)指令的生成語(yǔ)言和視覺(jué)模型，即所謂的多模態(tài)模型，成為了人工智能領(lǐng)域的熱門(mén)議題。

CLIP 是一種開(kāi)創(chuàng)性的視覺(jué)語(yǔ)言模型，它將 Transformer 架構(gòu)與視覺(jué)元素相結(jié)合，便于在大量文本和圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練。通過(guò)從一開(kāi)始就整合視覺(jué)和語(yǔ)言知識(shí)，CLIP 可以在多模態(tài)生成框架內(nèi)充當(dāng)圖像編碼器。

另一個(gè)值得注意的例子是 Stable Diffusion，它是一種多用途文本到圖像人工智能模型，以其適應(yīng)性和易用性而著稱(chēng)。它采用 Transformer 架構(gòu)和潛在擴(kuò)散技術(shù)來(lái)解碼文本輸入并生成各種風(fēng)格的圖像，進(jìn)一步說(shuō)明了多模態(tài)人工智能的進(jìn)步。

ChatGPT 2022 年 11 月發(fā)布之后，2023 年出現(xiàn)了大量文本到圖像的商業(yè)化產(chǎn)品，如 Stable Diffusion、Midjourney、DALL-E 3。這些工具能讓用戶通過(guò)簡(jiǎn)單的文字提示生成高分辨率和高質(zhì)量的新圖像，展示了人工智能在創(chuàng)意圖像生成方面的潛力。

然而，由于視頻的時(shí)間復(fù)雜性，從文本到圖像到文本到視頻的過(guò)渡具有挑戰(zhàn)性。盡管工業(yè)界和學(xué)術(shù)界做出了許多努力，但大多數(shù)現(xiàn)有的視頻生成工具，如 Pika 和 Gen-2 ，都僅限于生成幾秒鐘的短視頻片段。

在這種情況下，Sora 是一項(xiàng)重大突破，類(lèi)似于 ChatGPT 在 NLP 領(lǐng)域的影響。Sora 是第一個(gè)能夠根據(jù)人類(lèi)指令生成長(zhǎng)達(dá)一分鐘視頻的模型，同時(shí)保持較高的視覺(jué)質(zhì)量和引人注目的視覺(jué)連貫性，從第一幀到最后一幀都具有漸進(jìn)感和視覺(jué)連貫性。

這是一個(gè)里程碑，對(duì)生成式 AI 的研究和發(fā)展產(chǎn)生了深遠(yuǎn)影響。

如圖 2 所示，Sora 在準(zhǔn)確解讀和執(zhí)行復(fù)雜的人類(lèi)指令方面表現(xiàn)出非凡的能力。該模型可以生成包含多個(gè)角色的詳細(xì)場(chǎng)景，這些角色在錯(cuò)綜復(fù)雜的背景下執(zhí)行特定的動(dòng)作。研究人員認(rèn)為，Sora 不僅能熟練處理用戶生成的文本提示，還能辨別場(chǎng)景中各種元素之間復(fù)雜的相互作用。

此外，Sora 的進(jìn)步還體現(xiàn)在它能夠生成具有細(xì)微運(yùn)動(dòng)和交互描繪的擴(kuò)展視頻序列，克服了早期視頻生成模型所特有的短片段和簡(jiǎn)單視覺(jué)渲染的限制。這種能力代表了人工智能驅(qū)動(dòng)的創(chuàng)意工具的飛躍，使用戶能夠?qū)⑽淖謹(jǐn)⑹鲛D(zhuǎn)換成豐富的視覺(jué)故事。

總之，這些進(jìn)步顯示了 Sora 作為世界模擬器的潛力，它可以提供對(duì)所描繪場(chǎng)景的物理和背景動(dòng)態(tài)的細(xì)微洞察。

為了方便讀者查閱視覺(jué)生成模型的最新進(jìn)展，研究者在論文附錄匯編了近期的代表性工作成果。

技術(shù)推演

Sora 的核心是一個(gè)預(yù)訓(xùn)練的擴(kuò)散 Transformer。事實(shí)證明，Transformer 模型在許多自然語(yǔ)言任務(wù)中都具有可擴(kuò)展性和有效性。與 GPT-4 等強(qiáng)大的大型語(yǔ)言模型（LLM）類(lèi)似，Sora 可以解析文本并理解復(fù)雜的用戶指令。為了提高視頻生成的計(jì)算效率，Sora 采用了時(shí)空潛在 patch 作為其構(gòu)建模塊。

具體來(lái)說(shuō)，Sora 會(huì)將原始輸入視頻壓縮為潛在時(shí)空表示。然后，從壓縮視頻中提取一系列潛在時(shí)空 patch，以囊括短暫時(shí)間間隔內(nèi)的視覺(jué)外觀和運(yùn)動(dòng)動(dòng)態(tài)。這些片段類(lèi)似于語(yǔ)言模型中的詞 token，為 Sora 提供了詳細(xì)的視覺(jué)短語(yǔ)，可用于構(gòu)建視頻。Sora 的文本到視頻生成由擴(kuò)散 Transformer 模型完成。從充滿視覺(jué)噪音的幀開(kāi)始，該模型會(huì)對(duì)圖像進(jìn)行迭代去噪，并根據(jù)提供的文本提示引入特定細(xì)節(jié)。本質(zhì)上講，生成的視頻是通過(guò)多步完善過(guò)程產(chǎn)生的，每一步都會(huì)對(duì)視頻進(jìn)行完善，使其更加符合所需的內(nèi)容和質(zhì)量。

如圖 4 所示，Sora 的核心本質(zhì)是一個(gè)具有靈活采樣維度的擴(kuò)散 Transformer。它由三部分組成：（1）時(shí)空壓縮器首先將原始視頻映射到潛在空間。(2) 然后，ViT 處理 token 化的潛在表示，并輸出去噪潛在表示。(3) 類(lèi)似 CLIP 的調(diào)節(jié)機(jī)制接收 LLM 增強(qiáng)的用戶指令和潛在的視覺(jué)提示，引導(dǎo)擴(kuò)散模型生成風(fēng)格化或主題化的視頻。經(jīng)過(guò)許多去噪步驟后，生成視頻的潛在表示被獲取，然后通過(guò)相應(yīng)的解碼器映射回像素空間。

在本節(jié)中，研究者對(duì) Sora 所使用的技術(shù)進(jìn)行了逆向工程，并討論了一系列相關(guān)工作。

數(shù)據(jù)預(yù)處理

Sora 的一個(gè)顯著特征是它能夠訓(xùn)練、理解和生成原始尺寸的視頻和圖像，如圖 5 所示。而傳統(tǒng)方法通常會(huì)調(diào)整視頻大小、裁剪或調(diào)整視頻的長(zhǎng)寬比以適應(yīng)統(tǒng)一的視頻和圖像。利用擴(kuò)散 Transformer 架構(gòu)，Sora 是第一個(gè)擁抱視覺(jué)數(shù)據(jù)多樣性的模型，可以以多種視頻和圖像格式進(jìn)行采樣，范圍從寬屏 1920x1080p 視頻到垂直 1080x1920p 視頻以及介于兩者之間的視頻，而不影響其原始尺寸。

如圖 6 所示，Sora 生成的視頻能夠更好的展現(xiàn)主題，從而確保在場(chǎng)景中完全捕捉到拍攝對(duì)象，而其他視頻有時(shí)會(huì)導(dǎo)致視圖被截?cái)嗷虿眉?，?dǎo)致拍攝對(duì)象脫離畫(huà)面。

統(tǒng)一視覺(jué)表示。為了有效處理不同持續(xù)時(shí)間、分辨率和高寬比的圖像和視頻，關(guān)鍵在于將所有形式的視覺(jué)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示。

Sora 處理的過(guò)程是這樣的：首先將視頻壓縮到低維潛在空間，然后將表示分解為時(shí)空 patch 來(lái)對(duì)視頻進(jìn)行 patch 化（patchifies）。但是回看 Sora 技術(shù)報(bào)告，他們僅僅提出了一個(gè)高層次的想法，這給研究界的復(fù)現(xiàn)帶來(lái)了挑戰(zhàn)。在接下來(lái)的章節(jié)中，本文嘗試對(duì) Sora 的技術(shù)路徑進(jìn)行逆向工程，并且借鑒現(xiàn)有文獻(xiàn)，討論可以復(fù)現(xiàn) Sora 的可行替代方案。

首先是視頻壓縮網(wǎng)絡(luò)。Sora 的視頻壓縮網(wǎng)絡(luò)（或視覺(jué)編碼器）旨在降低輸入數(shù)據(jù)（尤其是原始視頻）的維度，并輸出在時(shí)間和空間上壓縮過(guò)的潛在表示，如圖 7 所示。根據(jù)技術(shù)報(bào)告中的參考文獻(xiàn)， Sora 壓縮網(wǎng)絡(luò)是基于 VAE 或 VQ-VAE 技術(shù)的。

然而，如果不像技術(shù)報(bào)告中對(duì)視頻和圖像調(diào)整大小和裁剪，那么 VAE 將任何大小的視覺(jué)數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間挑戰(zhàn)巨大。本文總結(jié)了兩種不同的實(shí)現(xiàn)來(lái)解決這個(gè)問(wèn)題：

空間 patch 壓縮：涉及將視頻幀轉(zhuǎn)換為固定大小的 patch，類(lèi)似于 ViT 和 MAE 中使用的方法（見(jiàn)圖 8），然后將其編碼到潛在空間中，這種方法對(duì)于適應(yīng)不同分辨率和寬高比的視頻特別有效。隨后，將這些空間 token 按時(shí)間序列組織在一起，以創(chuàng)建時(shí)間 - 空間潛在表征。

時(shí)間 - 空間 patch 壓縮：該技術(shù)旨在封裝視頻數(shù)據(jù)的空間和時(shí)間維度，從而提供全面的表示。該技術(shù)不僅僅分析靜態(tài)幀，還考慮幀間的運(yùn)動(dòng)和變化，從而捕獲視頻的動(dòng)態(tài)信息。3D 卷積的利用成為實(shí)現(xiàn)這種集成的一種簡(jiǎn)單而有效的方法。

圖 9 描繪了不同視頻壓縮方式的比較。與空間 patch 壓縮類(lèi)似，使用具有預(yù)定卷積核參數(shù)（例如固定內(nèi)核大小、步幅和輸出通道）的時(shí)間 - 空間 patch 壓縮會(huì)導(dǎo)致潛在空間維度也不同。為了緩解這一挑戰(zhàn)，空間修補(bǔ)（spatial patchification）所采用的方法在這種情況下同樣適用和有效。

總的來(lái)說(shuō)，本文基于 VAE 或其變體如 VQ-VQE 逆向工程了兩種 patch 級(jí)壓縮方法，因?yàn)?patch 對(duì)處理不同類(lèi)型的視頻更加靈活。由于 Sora 旨在生成高保真視頻，因此使用了較大尺寸的 patch 或內(nèi)核尺寸以實(shí)現(xiàn)高效壓縮。這里，本文期望使用固定大小的 patch，以簡(jiǎn)化操作、擴(kuò)展性和訓(xùn)練穩(wěn)定性。但也可以使用不同大小的 patch，以使整個(gè)幀或視頻在潛在空間中的尺寸保持一致。然而，這可能導(dǎo)致位置編碼無(wú)效，并且給解碼器生成具有不同大小潛在 patch 的視頻帶來(lái)挑戰(zhàn)。

壓縮網(wǎng)絡(luò)部分還有一個(gè)關(guān)鍵問(wèn)題：在將 patch 送入擴(kuò)散 Transformer 的輸入層之前，如何處理潛在空間維度的變化（即不同視頻類(lèi)型的潛在特征塊或 patch 的數(shù)量）。這里討論了幾種解決方案：

根據(jù) Sora 的技術(shù)報(bào)告和相應(yīng)的參考文獻(xiàn)，patch n' pack（PNP）很可能是一種解決方案。如圖 10 所示，PNP 將來(lái)自不同圖像的多個(gè) patch 打包在一個(gè)序列中。這種方法的靈感來(lái)源于自然語(yǔ)言處理中使用的樣本打包，它通過(guò)丟棄 token 來(lái)實(shí)現(xiàn)對(duì)不同長(zhǎng)度輸入的高效訓(xùn)練。在這里，patch 化和 token 嵌入步驟需要在壓縮網(wǎng)絡(luò)中完成，但 Sora 可能會(huì)像 Diffusion Transformer（擴(kuò)散 Transformer）那樣，為 Transformer token 進(jìn)一步 patch 化。

無(wú)論是否有第二輪修補(bǔ)，都需要解決兩個(gè)問(wèn)題：如何以緊湊的方式打包這些 token，以及如何控制哪些 token 應(yīng)該被丟棄。

對(duì)于第一個(gè)問(wèn)題，研究者采用了簡(jiǎn)單的「貪心」算法，即在第一個(gè)序列中添加足夠剩余空間的樣本。一旦沒(méi)有樣本可以容納，序列就會(huì)被填充 token 填滿，從而產(chǎn)生批處理操作所需的固定序列長(zhǎng)度。這種簡(jiǎn)單的打包算法可能會(huì)導(dǎo)致大量填充，這取決于輸入長(zhǎng)度的分布情況。另一方面，可以控制采樣的分辨率和幀數(shù)，通過(guò)調(diào)整序列長(zhǎng)度和限制填充來(lái)確保高效打包。

對(duì)于第二個(gè)問(wèn)題，直觀的方法是丟棄相似的 token，或者像 PNP 一樣，使用丟棄率調(diào)度器。不過(guò)，值得注意的是，三維一致性是 Sora 的優(yōu)良特性之一。在訓(xùn)練過(guò)程中，丟棄 token 可能會(huì)忽略細(xì)粒度的細(xì)節(jié)。因此，研究者認(rèn)為 OpenAI 很可能會(huì)使用超長(zhǎng)的上下文窗口并打包視頻中的所有 token，盡管這樣做的計(jì)算成本很高，例如，多頭注意力算子在序列長(zhǎng)度上表現(xiàn)出二次成本。具體來(lái)說(shuō)，一個(gè)長(zhǎng)時(shí)間視頻中的時(shí)空潛在 patch 可以打包到一個(gè)序列中，而多個(gè)短時(shí)間視頻中的時(shí)空潛在 patch 則會(huì)串聯(lián)到另一個(gè)序列中。

建模

圖像 DiT

傳統(tǒng)的擴(kuò)散模型主要利用包含下采樣和上采樣塊的卷積 U-Net 作為去噪網(wǎng)絡(luò)骨干。然而，最近的研究表明，U-Net 架構(gòu)對(duì)擴(kuò)散模型的良好性能并非至關(guān)重要。

通過(guò)采用更靈活的 Transformer 架構(gòu)，基于 Transformer 的擴(kuò)散模型可以使用更多的訓(xùn)練數(shù)據(jù)和更大的模型參數(shù)。沿著這一思路，DiT 和 U-ViT 是第一批將視覺(jué) Transformer 用于潛在擴(kuò)散模型的作品。

與 ViT 一樣，DiT 也采用了多頭自注意力層和層范數(shù)和縮放層交錯(cuò)的逐點(diǎn)前饋網(wǎng)絡(luò)。如圖 11 所示，DiT 還通過(guò) AdaLN 進(jìn)行調(diào)節(jié)，并增加了一個(gè)用于零初始化的 MLP 層，將每個(gè)殘差塊初始化為一個(gè)恒等函數(shù)，從而大大穩(wěn)定了訓(xùn)練過(guò)程。DiT 的可擴(kuò)展性和靈活性得到了經(jīng)驗(yàn)驗(yàn)證。

在 U-ViT 中，如圖 11 所示，將包括時(shí)間、條件和噪聲圖像片段在內(nèi)的所有輸入都視為 token，并在淺層和深層 Transformer 層之間提出了長(zhǎng)跳躍連接。結(jié)果表明，基于 CNN 的 U-Net 中的下采樣和升采樣算子并非總是必要的，U-ViT 在圖像和文本到圖像生成方面取得了破紀(jì)錄的 FID 分?jǐn)?shù)。

與掩蔽自編碼器（MAE）一樣，掩蔽擴(kuò)散 Transformer（MDT）也在擴(kuò)散過(guò)程中加入了掩碼潛在模型，以明確增強(qiáng)圖像合成中對(duì)象語(yǔ)義部分之間的上下文關(guān)系學(xué)習(xí)。

具體來(lái)說(shuō)，如圖 12 所示，MDT 在訓(xùn)練過(guò)程中使用邊緣插值（side-interpolated）進(jìn)行額外的掩蔽 token 重建任務(wù)，以提高訓(xùn)練效率，并學(xué)習(xí)強(qiáng)大的上下文感知位置嵌入進(jìn)行推理。與 DiT 相比，MDT 實(shí)現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。Hatamizadeh et al. 沒(méi)有使用 AdaLN（即移位和縮放）進(jìn)行時(shí)間條件建模，而是引入了 Diffusion Vision Transformers (DiffiT)，它使用與時(shí)間相關(guān)的自注意力（TMSA）模塊對(duì)采樣時(shí)間步長(zhǎng)內(nèi)的動(dòng)態(tài)去噪行為進(jìn)行建模。此外，DiffiT 采用兩種混合分層架構(gòu)，分別在像素空間和潛在空間進(jìn)行高效去噪，并在各種生成任務(wù)中取得了新的先進(jìn)成果?？傊?，這些研究表明，利用視覺(jué) Transformer 進(jìn)行圖像潛在擴(kuò)散取得了可喜的成果，為面向其他模態(tài)的研究鋪平了道路。

視頻 DiT

在文本到圖像（T2I）擴(kuò)散模型的基礎(chǔ)上，一些近期研究專(zhuān)注于發(fā)揮擴(kuò)散 Transformer 在文本到視頻（T2V）生成任務(wù)中的潛力。由于視頻的時(shí)空特性，在視頻領(lǐng)域應(yīng)用 DiT 所面臨的主要挑戰(zhàn)是：i) 如何將視頻從空間和時(shí)間上壓縮到潛在空間，以實(shí)現(xiàn)高效去噪；ii) 如何將壓縮潛在空間轉(zhuǎn)換為 patch，并將其輸入 Transformer ；iii) 如何處理長(zhǎng)序列時(shí)空依賴(lài)性，并確保內(nèi)容一致性。

這里將討論基于 Transformer 的去噪網(wǎng)絡(luò)架構(gòu)（該架構(gòu)旨在時(shí)空壓縮的潛在空間中運(yùn)行）下文詳細(xì)回顧了 OpenAI Sora 技術(shù)報(bào)告參考文獻(xiàn)列表中介紹的兩項(xiàng)重要工作（Imagen Video 和 Video LDM）。

Imagen Video 是谷歌研究院開(kāi)發(fā)的文本到視頻生成系統(tǒng)，它利用級(jí)聯(lián)擴(kuò)散模型（由 7 個(gè)子模型組成，分別執(zhí)行文本條件視頻生成、空間超分辨率和時(shí)間超分辨率）將文本提示轉(zhuǎn)化為高清視頻。

如圖 13 所示，首先，凍結(jié)的 T5 文本編碼器會(huì)根據(jù)輸入的文本提示生成上下文嵌入。這些嵌入對(duì)于將生成的視頻與文本提示對(duì)齊至關(guān)重要，除了基礎(chǔ)模型外，它們還被注入級(jí)聯(lián)中的所有模型。隨后，嵌入信息被注入基礎(chǔ)模型，用于生成低分辨率視頻，然后由級(jí)聯(lián)擴(kuò)散模型對(duì)其進(jìn)行細(xì)化以提高分辨率。基礎(chǔ)視頻和超分辨率模型采用時(shí)空可分離的 3D U-Net 架構(gòu)。該架構(gòu)將時(shí)間注意力層和卷積層與空間對(duì)應(yīng)層結(jié)合在一起，以有效捕捉幀間依賴(lài)關(guān)系。它采用 v 預(yù)測(cè)參數(shù)化來(lái)實(shí)現(xiàn)數(shù)值穩(wěn)定性和條件增強(qiáng)，以促進(jìn)跨模型的并行訓(xùn)練。

這一過(guò)程包括對(duì)圖像和視頻進(jìn)行聯(lián)合訓(xùn)練，將每幅圖像視為一幀，以利用更大的數(shù)據(jù)集，并使用無(wú)分類(lèi)器引導(dǎo)來(lái)提高提示保真度。漸進(jìn)式蒸餾法用于簡(jiǎn)化采樣過(guò)程，在保持感知質(zhì)量的同時(shí)大大減少了計(jì)算負(fù)荷。將這些方法和技術(shù)相結(jié)合，Imagen Video 不僅能生成高保真視頻，而且還具有出色的可控性，這體現(xiàn)在它能生成多樣化的視頻、文本動(dòng)畫(huà)和各種藝術(shù)風(fēng)格的內(nèi)容。

Blattmann et al. 建議將二維潛在擴(kuò)散模型轉(zhuǎn)化為視頻潛在擴(kuò)散模型（Video LDM）。為此，他們?cè)?U-Net 主干網(wǎng)和 VAE 解碼器的現(xiàn)有空間層中添加了一些臨時(shí)時(shí)間層，以學(xué)習(xí)如何對(duì)齊單個(gè)幀。這些時(shí)間層在編碼視頻數(shù)據(jù)上進(jìn)行訓(xùn)練，而空間層則保持固定，從而使模型能夠利用大型圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。LDM 的解碼器可進(jìn)行微調(diào)，以實(shí)現(xiàn)像素空間的時(shí)間一致性和時(shí)間對(duì)齊擴(kuò)散模型上采樣器，從而提高空間分辨率。

為了生成超長(zhǎng)視頻，作者對(duì)模型進(jìn)行了訓(xùn)練，以預(yù)測(cè)未來(lái)幀的上下文幀數(shù)，從而在采樣過(guò)程中實(shí)現(xiàn)無(wú)分類(lèi)器引導(dǎo)。為實(shí)現(xiàn)高時(shí)間分辨率，作者將視頻合成過(guò)程分為關(guān)鍵幀生成和這些關(guān)鍵幀之間的插值。在級(jí)聯(lián) LDM 之后，使用 DM 將視頻 LDM 輸出進(jìn)一步放大 4 倍，確保高空間分辨率的同時(shí)保持時(shí)間一致性。這種方法能以高效的計(jì)算方式生成全局一致的長(zhǎng)視頻。此外，作者還展示了將預(yù)先訓(xùn)練好的圖像 LDM（如穩(wěn)定擴(kuò)散）轉(zhuǎn)化為文本到視頻模型的能力，只需訓(xùn)練時(shí)間對(duì)齊層，即可實(shí)現(xiàn)分辨率高達(dá) 1280 × 2048 的視頻合成。

語(yǔ)言指令跟隨

為了提高文本到視頻模型遵循文本指令的能力，Sora 采用了與 DALL?E 3 類(lèi)似的方法。

DALL?E 3 中的指令跟隨是通過(guò)一種描述改進(jìn)方法來(lái)解決的，其假設(shè)是模型所訓(xùn)練的文本 - 圖像對(duì)的質(zhì)量決定了最終文本 - 圖像模型的性能。數(shù)據(jù)質(zhì)量差，尤其是普遍存在的噪聲數(shù)據(jù)和省略了大量視覺(jué)信息的簡(jiǎn)短標(biāo)題，會(huì)導(dǎo)致許多問(wèn)題，如忽略關(guān)鍵詞和詞序，以及誤解用戶意圖等。描述改進(jìn)方法通過(guò)為現(xiàn)有圖像重新添加詳細(xì)的描述性描述來(lái)解決這些問(wèn)題。該方法首先訓(xùn)練圖像描述器（視覺(jué)語(yǔ)言模型），以生成精確的描述性圖像描述。然后，描述器生成的描述性圖像描述將用于微調(diào)文本到圖像模型。

具體來(lái)說(shuō)，DALL?E 3 采用對(duì)比式描述器（CoCa），聯(lián)合訓(xùn)練具有 CLIP 架構(gòu)和語(yǔ)言模型目標(biāo)的圖像描述器。該圖像描述器包含一個(gè)圖像編碼器、一個(gè)用于提取語(yǔ)言信息的單模態(tài)文本編碼器和一個(gè)多模態(tài)文本解碼器。它首先在單模態(tài)圖像和文本嵌入之間采用對(duì)比損失，然后對(duì)多模態(tài)解碼器的輸出采用描述損失。由此產(chǎn)生的圖像描述器將根據(jù)對(duì)圖像的高度詳細(xì)描述進(jìn)行進(jìn)一步微調(diào)，其中包括主要對(duì)象、周?chē)h(huán)境、背景、文本、風(fēng)格和色彩。通過(guò)這一步驟，圖像描述器就能為圖像生成詳細(xì)的描述性描述。文本到圖像模型的訓(xùn)練數(shù)據(jù)集由圖像描述生成器生成的重新描述數(shù)據(jù)集和真實(shí)人工編寫(xiě)數(shù)據(jù)混合而成，以確保模型捕捉到用戶輸入。

這種圖像描述改進(jìn)方法帶來(lái)了一個(gè)潛在問(wèn)題：實(shí)際用戶提示與訓(xùn)練數(shù)據(jù)中的描述性圖像描述不匹配。DALL?E 3 通過(guò)上采樣解決了這一問(wèn)題，即使用 LLM 將簡(jiǎn)短的用戶提示改寫(xiě)成詳細(xì)而冗長(zhǎng)的說(shuō)明。這確保了模型在推理時(shí)接收到的文本輸入與模型訓(xùn)練時(shí)的文本輸入保持一致。

為了提高指令跟蹤能力，Sora 采用了類(lèi)似的描述改進(jìn)方法。這種方法是通過(guò)首先訓(xùn)練一個(gè)能夠?yàn)橐曨l制作詳細(xì)說(shuō)明的視頻描述器來(lái)實(shí)現(xiàn)的。然后，將該視頻描述器應(yīng)用于訓(xùn)練數(shù)據(jù)中的所有視頻，生成高質(zhì)量的（視頻、描述性描述）對(duì)，用于微調(diào) Sora，以提高其指令跟隨能力。

Sora 的技術(shù)報(bào)告沒(méi)有透露視頻描述器是如何訓(xùn)練的細(xì)節(jié)。鑒于視頻描述器是一個(gè)視頻到文本的模型，因此有很多方法來(lái)構(gòu)建它：

一種直接的方法是利用 CoCa 架構(gòu)來(lái)制作視頻描述，方法是獲取視頻的多個(gè)幀，并將每個(gè)幀輸入圖像編碼器，即 VideoCoCa。VideoCoCa 以 CoCa 為基礎(chǔ)，重新使用圖像編碼器預(yù)訓(xùn)練的權(quán)重，并將其獨(dú)立應(yīng)用于采樣視頻幀。由此產(chǎn)生的幀 token 嵌入會(huì)被扁平化，并連接成一長(zhǎng)串視頻表示。然后，生成式池化層和對(duì)比池化層會(huì)對(duì)這些扁平化的幀 token 進(jìn)行處理，二者是用對(duì)比損失和描述損失聯(lián)合訓(xùn)練的。

其他可用于構(gòu)建視頻描述的方法包括 mPLUG-2、GIT、FrozenBiLM 等。

最后，為確保用戶提示與訓(xùn)練數(shù)據(jù)中的描述性描述格式一致，Sora 還執(zhí)行了額外的提示擴(kuò)展步驟，即使用 GPT-4V 將用戶輸入擴(kuò)展為詳細(xì)的描述性提示。

然而，Sora 訓(xùn)練描述器的數(shù)據(jù)收集過(guò)程尚不清楚，而且很可能需要大量人力，因?yàn)檫@可能需要對(duì)視頻進(jìn)行詳細(xì)描述。此外，描述性視頻描述可能會(huì)對(duì)視頻的重要細(xì)節(jié)產(chǎn)生幻覺(jué)。本文作者認(rèn)為，如何改進(jìn)視頻描述器值得進(jìn)一步研究，這對(duì)提高文本到圖像模型的指令跟蹤能力至關(guān)重要。

提示工程

文本提示

文本提示工程對(duì)于指導(dǎo)文本視頻模型制作出既具有視覺(jué)沖擊力又能精確滿足用戶規(guī)格的視頻至關(guān)重要。這就需要制作詳細(xì)的描述來(lái)指導(dǎo)模型，以有效彌合人類(lèi)創(chuàng)造力與人工智能執(zhí)行能力之間的差距。

Sora 的提示涵蓋了廣泛的場(chǎng)景。近期的作品（如 VoP、Make-A-Video 和 Tune-A-Video）展示了提示工程如何利用模型的自然語(yǔ)言理解能力來(lái)解碼復(fù)雜指令，并將其呈現(xiàn)為連貫、生動(dòng)和高質(zhì)量的視頻敘事。

如圖 15 所示，「一個(gè)時(shí)髦的女人走在霓虹燈閃爍的東京街頭...... 」就是這樣一個(gè)精心制作的文本提示，它確保 Sora 生成的視頻與預(yù)期的視覺(jué)效果非常吻合。提示工程的質(zhì)量取決于對(duì)詞語(yǔ)的精心選擇、所提供細(xì)節(jié)的具體性以及對(duì)其對(duì)模型輸出影響的理解。例如，圖 15 中的提示詳細(xì)說(shuō)明了動(dòng)作、設(shè)置、角色出場(chǎng)，甚至是所期望的場(chǎng)景情緒和氛圍。

圖像提示

圖像提示為即將生成的視頻內(nèi)容和其他元素（如人物、場(chǎng)景和情緒）提供了視覺(jué)錨點(diǎn)。此外，文字提示還可以指示模型將這些元素動(dòng)畫(huà)化，例如，添加動(dòng)作、互動(dòng)和敘事進(jìn)展等層次，使靜態(tài)圖像栩栩如生。通過(guò)使用圖像提示，Sora 可以利用視覺(jué)和文本信息將靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)的、由敘事驅(qū)動(dòng)的視頻。

圖 16 展示了人工智能生成的視頻：「一只頭戴貝雷帽、身穿高領(lǐng)毛衣的柴犬」、「一個(gè)獨(dú)特的怪物家族」、「一朵云組成了 SORA 一詞」以及「沖浪者在一座歷史悠久的大廳內(nèi)駕馭潮汐」。這些例子展示了通過(guò) DALL?E 生成的圖像提示 Sora 可以實(shí)現(xiàn)哪些功能。

視頻提示

視頻提示也可用于視頻生成。最近的研究（如 Moonshot 和 Fast-Vid2Vid）表明，好的視頻提示需要「具體」而「靈活」。這樣既能確保模型在特定目標(biāo)（如特定物體和視覺(jué)主題的描繪）上獲得明確的指導(dǎo)，又能在最終輸出中允許富有想象力的變化。

例如，在視頻擴(kuò)展任務(wù)中，提示可以指定擴(kuò)展的方向（時(shí)間向前或向后）和背景或主題。在圖 17 (a) 中，視頻提示指示 Sora 向后延伸一段視頻，以探索導(dǎo)致原始起點(diǎn)的事件。如圖 17（b）所示，在通過(guò)視頻提示執(zhí)行視頻到視頻的編輯時(shí)，模型需要清楚地了解所需的轉(zhuǎn)換，例如改變視頻的風(fēng)格、場(chǎng)景或氛圍，或改變燈光或情緒等微妙的方面。在圖 17 (c) 中，提示指示 Sora 連接視頻，同時(shí)確保視頻中不同場(chǎng)景中的物體之間平滑過(guò)渡。

雖然以前關(guān)于提示工程的研究主要集中在 LLM 和 LVM 的文本和圖像提示上，但預(yù)計(jì)研究者們對(duì)視頻生成模型的視頻提示的興趣會(huì)越來(lái)越大。

應(yīng)用

隨著以 Sora 為代表的視頻擴(kuò)散模型技術(shù)取得突破，其在不同研究領(lǐng)域和行業(yè)的應(yīng)用正在迅速加速。

本文作者指出，這項(xiàng)技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了單純的視頻創(chuàng)作，為從自動(dòng)內(nèi)容生成到復(fù)雜決策過(guò)程的各種任務(wù)提供了變革潛力。

在論文的第四章中，全面探討了視頻擴(kuò)散模型的當(dāng)前應(yīng)用，希望為實(shí)際部署方案提供一個(gè)廣闊的視角（圖 18）：

提高模擬能力：對(duì) Sora 進(jìn)行大規(guī)模訓(xùn)練，是因?yàn)樗軌虺錾啬M物理世界的各個(gè)方面。盡管沒(méi)有明確的三維建模，但 Sora 通過(guò)動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)和遠(yuǎn)距離連貫性表現(xiàn)出三維一致性，包括物體持久性和模擬與世界的簡(jiǎn)單交互。此外，Sora 還能模擬類(lèi)似 Minecraft 的數(shù)字環(huán)境，在保持視覺(jué)保真度的同時(shí)由基本策略控制，這一點(diǎn)非常有趣。這些新出現(xiàn)的能力表明，可擴(kuò)展視頻模型可以有效地創(chuàng)建人工智能模型，以模擬物理和數(shù)字世界的復(fù)雜性。
提高創(chuàng)造力：想象一下，通過(guò)文字勾勒出一個(gè)概念，無(wú)論是一個(gè)簡(jiǎn)單的物體還是一個(gè)完整的場(chǎng)景，都能在幾秒鐘內(nèi)呈現(xiàn)出逼真或高度風(fēng)格化的視頻。Sora 可以加速設(shè)計(jì)過(guò)程，更快地探索和完善創(chuàng)意，從而大大提高藝術(shù)家、電影制作人和設(shè)計(jì)師的創(chuàng)造力。
推動(dòng)教育創(chuàng)新：長(zhǎng)期以來(lái)，視覺(jué)輔助工具一直是教育領(lǐng)域理解重要概念不可或缺的工具。有了 Sora，教育工作者可以輕松地將課堂計(jì)劃從文字變成視頻，吸引學(xué)生的注意力，提高學(xué)習(xí)效率。從科學(xué)模擬到歷史劇，可能性是無(wú)限的。
增強(qiáng)可訪問(wèn)性：提高視覺(jué)領(lǐng)域的可訪問(wèn)性至關(guān)重要。Sora 通過(guò)將文字描述轉(zhuǎn)換為可視內(nèi)容，提供了一種創(chuàng)新的解決方案。這種功能使包括視覺(jué)障礙者在內(nèi)的所有人都能積極參與內(nèi)容創(chuàng)建，并以更有效的方式與他人互動(dòng)。因此，它可以創(chuàng)造一個(gè)更具包容性的環(huán)境，讓每個(gè)人都有機(jī)會(huì)通過(guò)視頻表達(dá)自己的想法。
促進(jìn)新興應(yīng)用：Sora 的應(yīng)用領(lǐng)域非常廣泛。例如，營(yíng)銷(xiāo)人員可以用它來(lái)制作針對(duì)特定受眾描述的動(dòng)態(tài)廣告。游戲開(kāi)發(fā)商可以利用它根據(jù)玩家的敘述生成定制的視覺(jué)效果甚至角色動(dòng)作。

具體而言，以下幾個(gè)行業(yè)將面臨變革：

影視

傳統(tǒng)上，創(chuàng)作電影是一個(gè)艱巨而昂貴的過(guò)程，往往需要數(shù)十年的努力、尖端的設(shè)備和大量的資金投入。先進(jìn)視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作進(jìn)入了一個(gè)新時(shí)代，從簡(jiǎn)單的文本輸入中自主生成電影的夢(mèng)想正在成為現(xiàn)實(shí)。事實(shí)上，研究人員已經(jīng)涉足電影生成領(lǐng)域，將視頻生成模型擴(kuò)展到電影創(chuàng)作中。

MovieFactory 應(yīng)用擴(kuò)散模型從 ChatGPT 制作的精心腳本中生成電影風(fēng)格的視頻，這是一個(gè)重大飛躍。在后續(xù)研究中，MobileVidFactory 只需用戶提供簡(jiǎn)單的文本，就能自動(dòng)生成垂直移動(dòng)視頻。Vlogger 則讓用戶可以制作長(zhǎng)達(dá)一分鐘的 Vlog。

Sora 能夠毫不費(fèi)力地生成引人入勝的電影內(nèi)容，這是這些發(fā)展的縮影，標(biāo)志著電影制作民主化的關(guān)鍵時(shí)刻。它們讓人們看到了一個(gè)人人都能成為電影制作人的未來(lái)，大大降低了電影行業(yè)的準(zhǔn)入門(mén)檻，并為電影制作引入了一個(gè)新的維度，將傳統(tǒng)的故事講述方式與人工智能驅(qū)動(dòng)的創(chuàng)造力融為一體。這些技術(shù)的影響不僅僅是簡(jiǎn)單化。它們有望重塑電影制作的格局，使其在面對(duì)不斷變化的觀眾喜好和發(fā)行渠道時(shí)，變得更加容易獲得，用途更加廣泛。

游戲

游戲產(chǎn)業(yè)一直在尋求突破逼真度和沉浸感界限的方法，但傳統(tǒng)游戲開(kāi)發(fā)往往受到預(yù)先渲染的環(huán)境和腳本事件的限制。通過(guò)擴(kuò)散模型效果實(shí)時(shí)生成動(dòng)態(tài)、高保真視頻內(nèi)容和逼真音效，有望克服現(xiàn)有的限制，為開(kāi)發(fā)人員提供工具來(lái)創(chuàng)建不斷變化的游戲環(huán)境，對(duì)玩家的行為和游戲事件做出有機(jī)的反應(yīng)。這可能包括生成不斷變化的天氣條件、改變地貌，甚至即時(shí)創(chuàng)建全新的設(shè)置，從而使游戲世界更加身臨其境、反應(yīng)更加靈敏。一些方法還能從視頻輸入中合成逼真的沖擊聲，增強(qiáng)游戲音頻體驗(yàn)。

將 Sora 集成到游戲領(lǐng)域后，就能創(chuàng)造出無(wú)與倫比的身臨其境的體驗(yàn)，吸引并吸引玩家。游戲的開(kāi)發(fā)、玩耍和體驗(yàn)方式都將得到創(chuàng)新，并為講故事、互動(dòng)和沉浸式體驗(yàn)帶來(lái)新的可能性。

醫(yī)療

盡管具有生成能力，但視頻擴(kuò)散模型在理解和生成復(fù)雜視頻序列方面表現(xiàn)出色，因此特別適用于識(shí)別人體內(nèi)的動(dòng)態(tài)異常，如早期細(xì)胞凋亡、皮膚病變進(jìn)展和不規(guī)則人體運(yùn)動(dòng)，這對(duì)早期疾病檢測(cè)和干預(yù)策略至關(guān)重要。此外，MedSegDiffV2 等模型利用 Transformer 的強(qiáng)大功能，以前所未有的精度分割醫(yī)學(xué)影像，使臨床醫(yī)生能夠在各種成像模式中精確定位感興趣的區(qū)域，提高準(zhǔn)確性。

將 Sora 集成到臨床實(shí)踐中，不僅有望完善診斷流程，還能根據(jù)精確的醫(yī)學(xué)影像分析提供量身定制的治療方案，實(shí)現(xiàn)患者護(hù)理的個(gè)性化。然而，這種技術(shù)整合也帶來(lái)了一系列挑戰(zhàn)，包括需要采取強(qiáng)有力的數(shù)據(jù)隱私措施和解決醫(yī)療保健中的倫理問(wèn)題。

機(jī)器人

視頻擴(kuò)散模型目前在機(jī)器人技術(shù)中發(fā)揮著重要作用，它展示了一個(gè)新時(shí)代：機(jī)器人可以生成和解釋復(fù)雜的視頻序列，以增強(qiáng)感知和決策。這些模型釋放了機(jī)器人的新能力，使它們能夠與環(huán)境互動(dòng)，以前所未有的復(fù)雜度和精確度執(zhí)行任務(wù)。將網(wǎng)絡(luò)規(guī)模擴(kuò)散模型引入機(jī)器人學(xué)，展示了利用大規(guī)模模型增強(qiáng)機(jī)器人視覺(jué)和理解能力的潛力。潛在擴(kuò)散模型被用于語(yǔ)言指導(dǎo)的視頻預(yù)測(cè)，使機(jī)器人能夠通過(guò)預(yù)測(cè)視頻格式的行動(dòng)結(jié)果來(lái)理解和執(zhí)行任務(wù)。此外，視頻擴(kuò)散模型能夠創(chuàng)建高度逼真的視頻序列，創(chuàng)新性地解決了機(jī)器人研究依賴(lài)模擬環(huán)境的問(wèn)題。這樣就能為機(jī)器人生成多樣化的訓(xùn)練場(chǎng)景，緩解真實(shí)世界數(shù)據(jù)匱乏所帶來(lái)的限制。

將 Sora 等技術(shù)整合到機(jī)器人領(lǐng)域有望取得突破性發(fā)展。通過(guò)利用 Sora 的強(qiáng)大功能，未來(lái)的機(jī)器人技術(shù)將取得前所未有的進(jìn)步，機(jī)器人可以無(wú)縫導(dǎo)航并與周?chē)h(huán)境互動(dòng)。

局限性

最后，研究者指出了 Sora 這項(xiàng)新技術(shù)存在的風(fēng)險(xiǎn)問(wèn)題和局限性。

隨著 ChatGPT 、GPT4-V 和 Sora 等復(fù)雜模型的快速發(fā)展，這些模型的能力得到了顯著提高。這些發(fā)展為提高工作效率和推動(dòng)技術(shù)進(jìn)步做出了重大貢獻(xiàn)。然而，這些進(jìn)步也引發(fā)了人們對(duì)這些技術(shù)可能被濫用的擔(dān)憂，包括假新聞的產(chǎn)生、隱私泄露和道德困境。因此，大模型的可信度問(wèn)題引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注，成為當(dāng)下研究討論的焦點(diǎn)。

雖然 Sora 的成就凸顯了人工智能的重大進(jìn)步，但挑戰(zhàn)依然存在。在描繪復(fù)雜動(dòng)作或捕捉微妙面部表情方面，該模型還有待改進(jìn)。此外，減少生成內(nèi)容中的偏見(jiàn)和防止有害的視覺(jué)輸出等道德方面的考慮也強(qiáng)調(diào)了開(kāi)發(fā)人員、研究人員和更廣泛的社區(qū)負(fù)責(zé)任使用的重要性。確保 Sora 的輸出始終安全、無(wú)偏見(jiàn)是一項(xiàng)主要挑戰(zhàn)。

但伴隨著視頻生成領(lǐng)域的發(fā)展，學(xué)術(shù)界和工業(yè)界的研究團(tuán)隊(duì)都取得了長(zhǎng)足的進(jìn)步。文本到視頻競(jìng)爭(zhēng)模式的出現(xiàn)表明，Sora 可能很快就會(huì)成為動(dòng)態(tài)生態(tài)系統(tǒng)的一部分。這種合作與競(jìng)爭(zhēng)的環(huán)境促進(jìn)了創(chuàng)新，從而提高了視頻質(zhì)量并開(kāi)發(fā)了新的應(yīng)用，有助于提高工人的工作效率，使人們的生活更具娛樂(lè)性。

小編推薦下載