OpenAI Sora：距離駭客任務只有一步之遙

abubu

1 年前

最好的文字到視訊人工智慧模型也是…世界模擬器？

本文選自《演算法橋樑》，這是一個旨在彌合人工智慧與人類之間差距的教育計畫。

昨天，OpenAI 宣布了 2024 年迄今為止最重要的人工智慧模型：Sora，這是一種最先進的 (SOTA) 文字到視訊模型，可以產生不同長寬比的高品質、高保真 1 分鐘視訊和決議。稱之為 SOTA 是一種輕描淡寫的說法。索拉（Sora）領先於該領域的其他任何事物數英里。它是通用的、可擴展的，而且它也是……一個世界模擬器？

題外話：抱歉，谷歌，Gemini 1.5是昨天最重要的版本——也許是 2024 年最重要的版本——但 OpenAI 不想給你帶來一丁點的主角（如果吉米蘋果可信的話，OpenAI 自3 月份以來就已經準備好了 Sora）— 什麼？—這可以解釋為什麼他們能夠如此及時地擾亂競爭對手的公關行動）。不管怎樣，我會寫一篇關於 Gemini 1.5 的文章，因為儘管它沒有受到關注，但我們不應該忽視 10M 令牌上下文視窗的突破。

回到索拉。這篇由兩部分組成的文章適用於那些對此人工智慧模型一無所知的人。它也適合那些觀看了 X 時間軸中大量生成的影片但懶得閱讀貼文或報告的人。

在第一部分（這一部分）中，我在較高的水平上回顧了模型和“技術”報告（它應該加引號）（在很大程度上將避免行話），並將在文本中穿插我認為最好的例子。我已經閱讀了有關 Sora 如何訓練以及我們對未來版本的期望的一些富有洞察力的評論和假設。

在你問之前，OpenAI 目前不會發布 Sora（甚至不是一個低調的研究預覽）。該模型正在接受紅隊和安全檢查。OpenAI 希望收集「世界各地的政策制定者、教育工作者和藝術家」的回饋。他們還在研究一種檢測分類器來識別 Sora 製作的視頻，並研究防止錯誤訊息的方法。

在第二部分（希望很快）中，我將分享我認為我們在技術和文化上的發展方向的思考（有樂觀，也有悲觀）。我希望你喜歡第一部分，因為第二部分不是為了娛樂——考慮到很快一切都會好起來，這是合適的。

Sora 是一個文字轉視訊模型

Sora 是一個高品質的文字轉視訊模型（與能力相比），這本身就令人印象深刻。

這是我最喜歡的三個例子。我喜歡第一個的顏色，第二個簡直令人難以置信 – 很難相信它不是真的 – 第三個有太多的贓物：

來源

但索拉的意義不止於此。除了縮小外推法和其他簡單技術之外，它還可以在文字提示的指導下將圖像動畫製作成影片：

來源

它可以透過添加場景、創建循環、延長持續時間甚至插值來從其他視頻創建新視頻，就像這個無人機蝴蝶場景（其他示例）：

來源

儘管它是一個視頻模型，但它可以從文本創建高品質的圖像（如DALL-E 和Midjourney，可以說比兩者都好）由於內部重述過程（已存在於DALL-E 中），對提示的遵守程度非常高3 但擴展到影片）：

來源

Sora 在這一切方面——尤其是與視訊相關的一代——比任何競爭對手都做得更好（只需看看Google Lumiere）。這是 happy-cat 影片的範例。來自 Sora（下）以及Pika AI、Runway、Leonardo 和 FinalFrame。

來源

Sora是擴散變壓器

Sora 將擴散模型 (DALL-E 3) 與變壓器架構 (ChatGPT) 結合。這種混合允許模型處理視訊（圖像幀的時間序列），就像 ChatGPT 處理文字一樣。

特別是，OpenAI 從DeepMind 在視覺轉換器方面的工作中汲取了靈感，「將視頻和圖像表示為稱為[時空]補丁的較小數據單元的集合，每個補丁都類似於GPT 中的一個令牌。” 以下是該報告的高級視覺化：

正如我上面所說，技術報告值得加上引號，因為它非常缺乏複製工作或深入理解它的細節。我們對確切的架構知之甚少，除了它是一個擴散變壓器，對訓練資料知之甚少，除了它是帶有字幕的影片。

我看到人們支持的一個假設是，至少部分訓練資料來自虛幻引擎 5（超人類、矩陣演示）或其他 3D 引擎（正如工件的特殊性所揭示的那樣）。NerF 數據是另一個假設。也許有一些我們永遠不會知道的事情。

Sora 是一個通用的、可擴展的視覺資料模型

Sora 不僅可以從文字製作圖像和視頻，或將圖像和視頻轉換為其他視頻，而且與競爭對手不同，它可以以通用的、可擴展的方式做到這一點。

例如，Sora“可以在單一生成的影片中創建多個鏡頭，準確地保留角色和視覺風格。” 它可以製作長達 1 分鐘的視頻，但您也可以將其製作得盡可能短。您可以製作不同解析度的垂直、方形和水平影片。報告中寫道：“Sora 可以採樣寬屏 1920x1080p 視頻、垂直 1080×1920 視頻以及介於兩者之間的所有視頻。” 這是一個例子。

除了多功能性之外，Sora 似乎還遵循反映語言模型的縮放法則。由於 Transformer 架構的特性，僅透過添加計算即可顯著提高品質。這是一個例子。

這種普遍性、可擴展性促使人們預測人工智慧將顛覆好萊塢和整個電影製作。考慮到進展速度，想像在幾個月內人工智慧模型能夠創建長達 5 或 10 分鐘的多場景、多角色複雜影片並不瘋狂。

你還記得威爾史密斯吃義大利麵嗎？那是一年前的事了。

https://cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.youtube.com%2Fembed%2FXQr4Xklqzw8%3Ffeature%3Doembed&display_name=YouTube&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DXQr4Xklqzw8&image=https%3A%2F%2Fi.ytimg.com%2Fvi%2FXQr4Xklqzw8%2Fhqdefault.jpg&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=youtube

Sora 是一個（原始的）世界模擬器

這是最讓我興奮（擔心？）的消息。

首先，回顧一下。Sora 是一種文字轉視訊模型。好吧，它比其他的更好，但這項技術已經存在了。Sora 是擴散變壓器。同樣，OpenAI 也沒有發明這種組合，儘管他們添加了有趣的定製成分。Sora 是一個通用且可擴展的視覺模型。事情開始變得有趣了。未來的研究充滿了可能性，驚喜是有道理的。

但最重要的是，Sora 是一個人工智慧模型，可以透過可信的現實世界互動創建實體聲音場景。Sora 是一個世界模擬器。當然，這是一種原始的方法（它失敗了，有時失敗得非常嚴重，所以最好稱其為“夢想物理學”），但卻是同類中的第一個。

OpenAI 表示，Sora 不僅能理解提示中出現的風格、風景、人物、物件和概念等，也能理解「這些東西在物理世界中是如何存在的」。我想透過說Sora 的怪異失敗表明，儘管它可能已經學習了一組隱含的物理規則來通知視訊生成過程，但這並不是一種強大的能力（OpenAI 承認了這一點）來證明這一說法。但這無疑是朝這個方向邁出的第一步。

更多來自 OpenAI on Sora 作為世界模擬器的資訊（為清晰起見進行了編輯）：

[Sora 可以]模擬現實世界中的人、動物和環境的某些方面。這些屬性的出現對 3D、物體等沒有任何明確的歸納偏差──它們純粹是尺度現象。

仿真能力：3D一致性；遠程連貫性和物體持久性（例如，我們的模型可以保持人、動物和物體，即使它們被遮蔽或離開框架）；與世界互動（例如，畫家可以在畫布上留下新的筆觸，並隨著時間的推移而持續存在）；模擬數位世界（例如Minecraft）

我喜歡吉姆範對此的看法（以及他對海盜船戰鬥影片的分解）：

Sora 是一個端到端的擴散變壓器模型。它輸入文字/圖像並直接輸出視訊像素。Sora 透過大量影片的梯度下降在神經參數中隱式學習物理引擎。Sora 是可學習的模擬器，或稱為「世界模型」。

當然，它不會在循環中明確調用 UE5 [虛幻引擎 5]，但 UE5 生成的（文字、視訊）對可能會作為合成資料添加到訓練集中。

OpenAI 用這句話結束了部落格文章：

Sora 是能夠理解和模擬現實世界的模型的基礎，我們相信這項功能將成為實現 AGI 的重要里程碑。

因此，我將向您提出兩個問題來結束第一部分：

我們離駭客任務還有多遠？

我們真的想去那裡嗎？