Movie Gen：Meta 的多媒體生成模型

这集播客主要介紹了 Meta发布的论文，開發的一系列多媒體生成基礎模型 Movie Gen。這些模型能夠生成高畫質圖片、影片和音訊，並且具有編輯和個性化影片的功能。 Movie Gen 模型在多個媒體生成任務中都達到了最先進的水平，包括：

文字轉影片合成

影片個性化

影片編輯

影片轉音訊生成

文字轉音訊生成

Movie Gen 模型最大的特點之一是其簡潔性。開發團隊在模型設計的各个方面，包括訓練目標、主幹架構以及使用時空自動編碼器（TAE）進行時空壓縮，都力求簡潔。這種簡潔性使得模型可以像大型語言模型一樣進行擴展。最大的影片生成模型是一個具有 300 億參數的 Transformer 模型，它使用最大的上下文長度為 73K 影片圖元進行訓練，相當於以每秒 16 幀的速度生成一個 16 秒的影片。

Movie Gen 的主要功能包括:

文字轉影片生成: Movie Gen 可以根據文字提示生成高畫質的影片，並且在影片畫質方面優於現有的商業系統，如 Runway Gen3、LumaLabs 和 OpenAI Sora。

影片個性化: Personalized Movie Gen Video 可以根據使用者提供的參考圖片生成與圖中人物一致的影片。

精確編輯: Movie Gen Edit 使用戶能夠使用文字指令輕鬆地對真實和生成的影片進行精確和富有想像力的編輯。

影片轉音訊生成: Movie Gen Audio 可以為影片生成同步音訊，並在音效生成、音樂生成和音訊擴展方面優於現有的商業系統，如 PikaLabs 和 ElevenLabs。

Movie Gen 的關鍵技術創新包括:

使用 Flow Matching 進行訓練: Flow Matching 是一種比傳統的擴散損失更有效且更穩健的訓練方法。

使用類似於 LLaMa3 的主幹架構: 這種設計選擇允許模型像大型語言模型一樣進行擴展。

時空自動編碼器 (TAE): TAE 可以有效地壓縮影片，並保持高畫質。

使用無分類器指導 (Classifier-Free Guidance): 這種技術可以提高生成影片的畫質和文字對齊度。

線性二次時間表 (Linear-quadratic t-schedule): 這種方法可以顯著減少生成影片所需的推理步驟，從而提高效率。

多階段影片編輯方法: 這種方法可以訓練一個強大的影片編輯模型，而無需依賴監督式的影片編輯資料。

音訊擴展方法: 這些方法允許 Movie Gen Audio 為長影片生成連貫的音軌。

Movie Gen 的資料集包括:

預訓練資料集: 由數億個影片-文字對和數十億個圖片-文字對組成。

微調資料集: 由高畫質影片和高畫質字幕組成。

音訊預訓練資料集: 由數億個主要包含環境音效的影片組成。

音訊微調資料集: 由數千個高畫質音訊和電影級影片組成。

Movie Gen 的評估方法包括:

人類評估: 用於評估生成影片和音訊的各個方面，例如整體畫質、文字對齊度、動作自然度等。

自動化指標: 用於評估生成影片和音訊的技術指標，例如 SSIM、PSNR、FID、CLAP 等。

Movie Gen 如何利用文本提示實現精確的視頻編輯？

Movie Gen 利用一種稱為 Movie Gen Edit 的模型，透過文字提示實現精確的視頻編輯。這個模型的訓練過程不依賴於任何監督式的視頻編輯數據。 Movie Gen Edit 採用多階段訓練方法，逐步提高其編輯能力：

第一階段： 模型首先在單幀圖像編輯任務上進行訓練。這一階段的目標是讓模型學習理解文字指令並對圖像進行相應的修改。

第二階段： 為了讓模型適應多幀視頻編輯，研究人員引入了兩個新的合成任務。第一個任務是通過隨機仿射增強來動畫化圖像編輯示例，模擬多幀編輯。
第二個任務是將視頻分割轉化為視頻編輯任務，要求模型用特定顏色標記視頻中的特定對象。

第三階段： 研究人員採用了一種改編自機器翻譯領域的「回譯」技術，讓模型能夠在多幀、高質量的輸出視頻上進行訓練。

通過這種多階段訓練方法，Movie Gen Edit 可以實現精確的視頻編輯，並在與現有技術的比較中表現出色。例如，在 TGVE+ 基準測試中，與之前最先進的 EVE 模型相比，人類評估者更偏愛 Movie Gen Edit 的結果，超過 74% 的時間。

為了更好地評估下一代視頻編輯模型，研究人員還創建了一個新的基準測試 Movie Gen Edit Bench。這個基準測試涵蓋六種不同的視頻編輯任務，每種任務都包含不同的編輯指令和相應的視頻。與以往的基準測試不同，Movie Gen Edit Bench 包含具有不同縱橫比、分辨率、幀率和時長的視頻。

Movie Gen Edit 的一些主要優勢包括：

能夠理解複雜的文字指令，並對視頻進行相應的修改。

可以對真實和生成的視頻進行編輯。

在與現有技術的比較中表現出色。

然而，Movie Gen Edit 也存在一些局限性：

目前僅支持英文文字指令。

仍然處於研究階段，尚未公開發布。

Movie Gen 的訓練模型使用技術

Movie Gen 項目使用多種技術來訓練其模型，目標是生成高質量的圖像、影片和音訊。以下是一些 Movie Gen 使用的關鍵技術：

1. 基礎模型：

Transformer 模型: Movie Gen 使用基於 Transformer 架構的模型來生成影片和音訊。 Transformer 模型在自然語言處理領域取得了巨大的成功，現在也被廣泛應用於多媒體生成任務。 Movie Gen 最大的影片生成模型是一個具有 300 億參數的 Transformer 模型，它能夠處理長達 16 秒的影片序列。

時空自動編碼器 (TAE): Movie Gen 使用 TAE 將輸入的圖像和影片編碼成一個學習到的時空壓縮潛在空間，並在這個潛在空間中進行生成。這種方法可以有效地壓縮數據並提高生成效率。

2. 訓練方法：

Flow Matching: Movie Gen 使用 Flow Matching 作為訓練目標，而不是傳統的擴散損失。 Flow Matching 被證明是一種更有效且更穩健的訓練方法，可以生成更高質量的結果。

聯合圖像和影片生成: Movie Gen 的影片生成模型是在圖像和影片數據上聯合訓練的。這種方法允許模型學習更豐富的視覺世界表示，並提高生成影片的質量。

監督式微調 (SFT): 在預訓練之後，Movie Gen 模型會在一個小的、精心策劃的高質量數據集上進行監督式微調。這個過程可以進一步提高生成結果的質量和美感。

3. 模型架構：

類似於 LLaMa3 的主幹架構: Movie Gen 的影片生成模型採用了類似於大型語言模型 LLaMa3 的主幹架構。這種設計選擇可以讓模型像大型語言模型一樣進行擴展，並提高訓練效率。

3D 卷積層： 在將數據輸入 Transformer 主幹之前，Movie Gen 使用 3D 卷積層將影片潛在編碼「分塊」，並將其展平成一維序列。

4. 模型擴展和訓練效率：

大規模數據集： Movie Gen 模型是在大規模的互聯網圖像、影片和音訊數據上進行預訓練的。這些數據集包含數億個影片和數十億張圖像，可以讓模型學習到豐富的視覺和聽覺世界知識。

大規模計算： Movie Gen 模型的訓練使用了大量的計算資源。最大的影片生成模型使用了高達 6,144 個 H100 GPU 進行訓練。

模型並行化： Movie Gen 使用了多種模型並行化技術來提高訓練效率。這些技術包括 FSDP、張量並行化 (TP)、序列並行化 (SP) 和管道並行化 (CP)。

5. 推理優化：

無分類器指導 (Classifier-Free Guidance): Movie Gen 使用無分類器指導來提高生成結果的質量和文字對齊度。這種技術可以讓模型在沒有明確標籤的情況下學習生成更符合文本提示的結果。

線性二次時間表 (Linear-quadratic t-schedule): Movie Gen 使用線性二次時間表來顯著減少生成影片所需的推理步驟，從而提高效率。

6. 其他技術：

影片個性化： Personalized Movie Gen Video 使用一個可訓練的視覺編碼器來提取參考圖像中的身份特徵，並使用這些特徵來生成與圖中人物一致的影片。

精確編輯： Movie Gen Edit 使用多階段訓練方法，包括在單幀圖像編輯任務、動畫化圖像編輯示例和視頻分割任務上進行訓練，來實現精確的視頻編輯。

音訊擴展： Movie Gen Audio 使用音訊擴展方法來生成長影片的連貫音軌。這些方法允許模型在生成新的音訊片段時考慮到之前生成的片段，從而確保整個音軌的連貫性。

7. 評估方法：

人類評估： Movie Gen 使用人類評估來評估生成結果的質量。人類評估者會對生成結果的各個方面進行評分，例如整體質量、文字對齊度、動作自然度等。

自動化指標： Movie Gen 也使用了一些自動化指標來評估生成結果的質量。這些指標包括 SSIM、PSNR、FID、CLAP 等。