今日報紙

報告揭秘Sora六大優勢業內：AGI可能在一兩年內實現

每日經濟新聞 2024-02-18 23:13:39

每經記者蘭素英每經編輯孫宇婷

“兩只金毛獵犬在山頂播客”；

“火星上日落時的一場極具未來感的無人機比賽”；

“在一個與自然和諧共生，同時又有超強朋克氣質和高科技屬性的未來城市漫游……”

根據上述提示詞，OpenAI首席執行官阿爾特曼在X平臺上發布了一系列視頻，精美的場景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月16日發布的最新視頻生成模型Sora制作的，用戶震驚之余，也給予了Sora高度評價，將其描述為“絕無僅有”和“游戲規則改變者”。

Sora采用了OpenAI文生圖模型DALL·E 3背后的強大技術，可將簡短的文本描述轉化成長達1分鐘的高清視頻。業界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進行對比后發現，在輸入相同的提示后，其他主流工具生成的視頻都大約只有5秒鐘，Sora可以在一段長達17秒視頻場景中，保持動作和畫面一致性。

英偉達人工智能研究院首席研究科學家Jim Fan也對Sora的能力發出感嘆，稱這是視頻生成領域的GPT-3時刻。他表示，Sora是一個“數據驅動的物理引擎”，一個可學習的模擬器或“世界模型”。360集團創始人、董事長周鴻祎則稱，隨著Sora的到來，人類離AGI真的就不遠了，不是10年、20年的問題，可能一兩年很快就可以實現。

在隨后發布的技術報告中，OpenAI介紹了Sora的強大性能以及背后的支撐技術，也對Sora的局限性進行了客觀的分析?！睹咳战洕侣劇酚浾咄ㄟ^梳理，總結出了Sora的六大核心優勢。

從技術上看，Sora有望將數字內容的創造力和真實感提升到新的水平，但凡事總有兩面性，影視、廣告制作和視頻等行業也將面臨嚴重的沖擊。另外，有專家對于技術的迅猛發展也表示出了擔憂，稱這類技術可能會導致“深度偽造”視頻，讓人難以識別，產生濫用等問題。

報告揭秘Sora六大優勢

值得注意的是，Sora推出的同一天，谷歌發布了Gemini多模態模型的更新版本，而三天前，Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動無疑將加劇生成式AI圖片和視頻領域的競爭。

而在Sora推出后不久，OpenAI發布了這款新工具的技術報告。在報告中，OpenAI首先重點介紹了如何將不同類型的視覺數據轉化為統一的格式，以便于對生成模型進行大規模訓練的方法，并對Sora的能力和局限性進行了評價。

《每日經濟新聞》記者對報告進行梳理，總結出了Sora的六大優勢：

（1）準確性和多樣性：Sora可將簡短的文本描述轉化成長達1分鐘的高清視頻。它可以準確地解釋用戶提供的文本輸入，并生成具有各種場景和人物的高質量視頻剪輯。它涵蓋了廣泛的主題，從人物和動物到郁郁蔥蔥的風景、城市場景、花園，甚至是水下的紐約市，可根據用戶的要求提供多樣化的內容。另據Medium，Sora能夠準確解釋長達135個單詞的長提示。

（2）強大的語言理解：OpenAI利用Dall·E模型的recaptioning（重述要點）技術，生成視覺訓練數據的描述性字幕，不僅能提高文本的準確性，還能提升視頻的整體質量。此外，與DALL·E 3類似，OpenAI還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯，并將其發送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質量的視頻。

（3）以圖/視頻生成視頻：Sora除了可以將文本轉化為視頻，還能接受其他類型的輸入提示，如已經存在的圖像或視頻。這使Sora能夠執行廣泛的圖像和視頻編輯任務，如創建完美的循環視頻、將靜態圖像轉化為動畫、向前或向后擴展視頻等。OpenAI在報告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強大功能，還展示了它在圖像和視頻編輯領域的無限潛力。（4）視頻擴展功能：由于可接受多樣化的輸入提示，用戶可以根據圖像創建視頻或補充現有視頻。作為基于Transformer的擴散模型，Sora還能沿時間線向前或向后擴展視頻。

（5）優異的設備適配性：Sora具備出色的采樣能力，從寬屏的 1920x1080p 到豎屏的1080x1920，兩者之間的任何視頻尺寸都能輕松應對。這意味著Sora能夠為各種設備生成與其原始縱橫比完美匹配的內容。而在生成高分辨率內容之前，Sora還能以小尺寸迅速創建內容原型。

（6）場景和物體的一致性和連續性：Sora可以生成帶有動態視角變化的視頻，人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題?，F有模型的一個問題是，當物體離開視野時，它們可能無法對其進行追蹤。而通過一次性提供多幀預測，Sora可確保畫面主體即使暫時離開視野也能保持不變。

Sora讓AGI很快實現？

英偉達人工智能研究院首席研究科學家Jim Fan在X平臺發文表示，“如果你還是把Sora看成DALLE那樣的生成式玩具，還是好好想想吧，這是一個數據驅動的物理引擎。他是對許多世界的模擬，無論是真實的還是幻想的。”他認為，Sora是一個可學習的模擬器，或“世界模型”。

在他看來，Sora代表了文本生成視頻的GPT-3時刻。而針對部分稱“Sora并沒有學習物理，僅僅是在二維空間里對像素進行操作”的聲音，他表示，Sora所展現的軟物理仿真實際上是一種隨著規模擴大而出現的特性。Sora必須學習一些隱式的文本到3D、3D 變換、光線追蹤渲染和物理規則，才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念，才有可能生成視頻。

值得一提的是，有網友在網上評論Sora生成的60秒時尚女子在東京街頭散步時稱，“gg Pixar（皮克斯動畫制作公司）”（編注：gg為Good Games縮寫，代指“打得好，我認輸”），隨后馬斯克回復，“gg humans（人類）”。

對于Sora的最大優勢，360集團創始人、董事長周鴻祎說，“這次OpenAI利用它的大語言模型優勢，讓Sora實現了對現實世界的理解和對世界的模擬兩層能力，這樣產生的視頻才是真實的，才能跳出2D的范圍模擬真實的物理世界。”他同時稱：“一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube和TikTok的視頻都看一遍，對世界的理解將遠遠超過文字學習，一幅圖勝過千言萬語，這就離AGI真的就不遠了，不是10年、20年的問題，可能一兩年很快就可以實現。”

影視等行業面臨顛覆

然而，Sora在帶來無限可能的同時，也將對部分行業產生巨大的影響，包括影視、廣告制作、教育、游戲、新聞和動畫等領域。

談及Sora的行業沖擊時，Jim Fan評價道，Sora的物理學理解目前還是脆弱的，遠非完美。它仍然會產生幻覺，生成與物理常識不符的事物，還沒有很好地掌握物體交互的原理。

周鴻祎對此也深以為然，他指出，AI不一定那么快顛覆所有行業，但它能激發更多人的創作力。他表示，“Sora只是小試牛刀，它展現的不僅僅是一個視頻制作的能力，而是大模型對真實世界有了理解和模擬之后，會帶來新的成果和突破。”

他解釋說，“機器能生產一個好視頻，但視頻的主題、腳本和分鏡頭策劃、臺詞的配合，都需要人的創意至少需要人給提示詞。”他強調，科技競爭最終比拼的是人才密度和深厚積累。

而對于Sora存在的弱點，OpenAI也明確指出，它可能難以準確模擬復雜場景的物理原理，并且可能無法理解因果關系。該模型還可能混淆提示的空間細節，例如混淆左右，并且可能難以精確描述隨著時間推移發生的事件，如遵循特定的相機軌跡。而這些缺陷可能導致Sora生成一些不合邏輯的東西，比如一個人在跑步機上跑錯方向，以不自然的方式改變主題，甚至出現憑空消失現象。

濫用仍是最大的擔憂

隨著名人等人物的深度造假視頻在網上變得越來越普遍，相應的倫理和安全問題也讓人心驚。

Gartner 分析師 Arun Chandrasekaran表示，“鑒于這項技術確實非常新，他們必須對其進行充分控制，以防止其被濫用和誤用，甚至客戶在沒有認識到這項新興技術所有局限性的情況下使用它。”他補充道，OpenAI為該模型設置的防護措施以及確定誰可以獲得訪問權限至關重要。

牛津互聯網學院客座政策研究員Mutale Nkonde也表示，任何人都可以輕松地將文本轉換為視頻這一想法令人興奮。但同時，她也擔心這些工具可能會植入社會偏見等內容，對人們生計造成影響等。

普林斯頓大學計算機科學教授Arvind Narayanan對此也有擔憂，認為Sora這類技術可能會導致“深度偽造”視頻，讓人們難以識別。雖然AI制作的視頻仍會有一些不一致的地方，但普通人可能不會注意到這些細節。“遲早，我們需要適應現實主義不再是真實性的標志這一事實。”

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

“兩只金毛獵犬在山頂播客”； “火星上日落時的一場極具未來感的無人機比賽”； “在一個與自然和諧共生，同時又有超強朋克氣質和高科技屬性的未來城市漫游……” 根據上述提示詞，OpenAI首席執行官阿爾特曼在X平臺上發布了一系列視頻，精美的場景讓用戶驚嘆不已。而這些視頻全都是通過OpenAI 2月16日發布的最新視頻生成模型Sora制作的，用戶震驚之余，也給予了Sora高度評價，將其描述為“絕無僅有”和“游戲規則改變者”。 Sora采用了OpenAI文生圖模型DALL·E 3背后的強大技術，可將簡短的文本描述轉化成長達1分鐘的高清視頻。業界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進行對比后發現，在輸入相同的提示后，其他主流工具生成的視頻都大約只有5秒鐘，Sora可以在一段長達17秒視頻場景中，保持動作和畫面一致性。英偉達人工智能研究院首席研究科學家Jim Fan也對Sora的能力發出感嘆，稱這是視頻生成領域的GPT-3時刻。他表示，Sora是一個“數據驅動的物理引擎”，一個可學習的模擬器或“世界模型”。360集團創始人、董事長周鴻祎則稱，隨著Sora的到來，人類離AGI真的就不遠了，不是10年、20年的問題，可能一兩年很快就可以實現。在隨后發布的技術報告中，OpenAI介紹了Sora的強大性能以及背后的支撐技術，也對Sora的局限性進行了客觀的分析。《每日經濟新聞》記者通過梳理，總結出了Sora的六大核心優勢。從技術上看，Sora有望將數字內容的創造力和真實感提升到新的水平，但凡事總有兩面性，影視、廣告制作和視頻等行業也將面臨嚴重的沖擊。另外，有專家對于技術的迅猛發展也表示出了擔憂，稱這類技術可能會導致“深度偽造”視頻，讓人難以識別，產生濫用等問題。報告揭秘Sora六大優勢值得注意的是，Sora推出的同一天，谷歌發布了Gemini多模態模型的更新版本，而三天前，Stability AI推出了新的圖像生成模型Stable Cascade。OpenAI的最新舉動無疑將加劇生成式AI圖片和視頻領域的競爭。而在Sora推出后不久，OpenAI發布了這款新工具的技術報告。在報告中，OpenAI首先重點介紹了如何將不同類型的視覺數據轉化為統一的格式，以便于對生成模型進行大規模訓練的方法，并對Sora的能力和局限性進行了評價。《每日經濟新聞》記者對報告進行梳理，總結出了Sora的六大優勢：（1）準確性和多樣性：Sora可將簡短的文本描述轉化成長達1分鐘的高清視頻。它可以準確地解釋用戶提供的文本輸入，并生成具有各種場景和人物的高質量視頻剪輯。它涵蓋了廣泛的主題，從人物和動物到郁郁蔥蔥的風景、城市場景、花園，甚至是水下的紐約市，可根據用戶的要求提供多樣化的內容。另據Medium，Sora能夠準確解釋長達135個單詞的長提示。（2）強大的語言理解：OpenAI利用Dall·E模型的recaptioning（重述要點）技術，生成視覺訓練數據的描述性字幕，不僅能提高文本的準確性，還能提升視頻的整體質量。此外，與DALL·E 3類似，OpenAI還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯，并將其發送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質量的視頻。（3）以圖/視頻生成視頻：Sora除了可以將文本轉化為視頻，還能接受其他類型的輸入提示，如已經存在的圖像或視頻。這使Sora能夠執行廣泛的圖像和視頻編輯任務，如創建完美的循環視頻、將靜態圖像轉化為動畫、向前或向后擴展視頻等。OpenAI在報告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強大功能，還展示了它在圖像和視頻編輯領域的無限潛力。（4）視頻擴展功能：由于可接受多樣化的輸入提示，用戶可以根據圖像創建視頻或補充現有視頻。作為基于Transformer的擴散模型，Sora還能沿時間線向前或向后擴展視頻。（5）優異的設備適配性：Sora具備出色的采樣能力，從寬屏的 1920x1080p 到豎屏的1080x1920，兩者之間的任何視頻尺寸都能輕松應對。這意味著Sora能夠為各種設備生成與其原始縱橫比完美匹配的內容。而在生成高分辨率內容之前，Sora還能以小尺寸迅速創建內容原型。（6）場景和物體的一致性和連續性：Sora可以生成帶有動態視角變化的視頻，人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題?，F有模型的一個問題是，當物體離開視野時，它們可能無法對其進行追蹤。而通過一次性提供多幀預測，Sora可確保畫面主體即使暫時離開視野也能保持不變。 Sora讓AGI很快實現？英偉達人工智能研究院首席研究科學家Jim Fan在X平臺發文表示，“如果你還是把Sora看成DALLE那樣的生成式玩具，還是好好想想吧，這是一個數據驅動的物理引擎。他是對許多世界的模擬，無論是真實的還是幻想的?！彼J為，Sora是一個可學習的模擬器，或“世界模型”。在他看來，Sora代表了文本生成視頻的GPT-3時刻。而針對部分稱“Sora并沒有學習物理，僅僅是在二維空間里對像素進行操作”的聲音，他表示，Sora所展現的軟物理仿真實際上是一種隨著規模擴大而出現的特性。Sora必須學習一些隱式的文本到3D、3D 變換、光線追蹤渲染和物理規則，才有可能精確地模擬視頻像素。它必須理解游戲引擎的概念，才有可能生成視頻。值得一提的是，有網友在網上評論Sora生成的60秒時尚女子在東京街頭散步時稱，“gg Pixar（皮克斯動畫制作公司）”（編注：gg為Good Games縮寫，代指“打得好，我認輸”），隨后馬斯克回復，“gg humans（人類）”。對于Sora的最大優勢，360集團創始人、董事長周鴻祎說，“這次OpenAI利用它的大語言模型優勢，讓Sora實現了對現實世界的理解和對世界的模擬兩層能力，這樣產生的視頻才是真實的，才能跳出2D的范圍模擬真實的物理世界?！彼瑫r稱：“一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube和TikTok的視頻都看一遍，對世界的理解將遠遠超過文字學習，一幅圖勝過千言萬語，這就離AGI真的就不遠了，不是10年、20年的問題，可能一兩年很快就可以實現?！? 影視等行業面臨顛覆然而，Sora在帶來無限可能的同時，也將對部分行業產生巨大的影響，包括影視、廣告制作、教育、游戲、新聞和動畫等領域。談及Sora的行業沖擊時，Jim Fan評價道，Sora的物理學理解目前還是脆弱的，遠非完美。它仍然會產生幻覺，生成與物理常識不符的事物，還沒有很好地掌握物體交互的原理。周鴻祎對此也深以為然，他指出，AI不一定那么快顛覆所有行業，但它能激發更多人的創作力。他表示，“Sora只是小試牛刀，它展現的不僅僅是一個視頻制作的能力，而是大模型對真實世界有了理解和模擬之后，會帶來新的成果和突破。” 他解釋說，“機器能生產一個好視頻，但視頻的主題、腳本和分鏡頭策劃、臺詞的配合，都需要人的創意至少需要人給提示詞?！彼麖娬{，科技競爭最終比拼的是人才密度和深厚積累。而對于Sora存在的弱點，OpenAI也明確指出，它可能難以準確模擬復雜場景的物理原理，并且可能無法理解因果關系。該模型還可能混淆提示的空間細節，例如混淆左右，并且可能難以精確描述隨著時間推移發生的事件，如遵循特定的相機軌跡。而這些缺陷可能導致Sora生成一些不合邏輯的東西，比如一個人在跑步機上跑錯方向，以不自然的方式改變主題，甚至出現憑空消失現象。濫用仍是最大的擔憂隨著名人等人物的深度造假視頻在網上變得越來越普遍，相應的倫理和安全問題也讓人心驚。 Gartner 分析師 Arun Chandrasekaran表示，“鑒于這項技術確實非常新，他們必須對其進行充分控制，以防止其被濫用和誤用，甚至客戶在沒有認識到這項新興技術所有局限性的情況下使用它?！彼a充道，OpenAI為該模型設置的防護措施以及確定誰可以獲得訪問權限至關重要。牛津互聯網學院客座政策研究員Mutale Nkonde也表示，任何人都可以輕松地將文本轉換為視頻這一想法令人興奮。但同時，她也擔心這些工具可能會植入社會偏見等內容，對人們生計造成影響等。普林斯頓大學計算機科學教授Arvind Narayanan對此也有擔憂，認為Sora這類技術可能會導致“深度偽造”視頻，讓人們難以識別。雖然AI制作的視頻仍會有一些不一致的地方，但普通人可能不會注意到這些細節?！斑t早，我們需要適應現實主義不再是真實性的標志這一事實?！?

Sora 視頻

上一篇文章

1月新增社融6.5萬億元創歷史同期最高水平

返回每經網首頁

下一篇文章

三年規劃近30款車何小鵬最新內部信透露這些信息