要聞

OpenAI發(fā)布首個視頻生成模型Sora，周鴻祎：意味著AGI實現(xiàn)將從10年縮短到1年

每日經(jīng)濟新聞 2024-02-16 20:20:25

每經(jīng)編輯畢陸名

“Sora只是小試牛刀，它展現(xiàn)的不僅僅是一個視頻制作的能力，而是大模型對真實世界有了理解和模擬之后，會帶來新的成果和突破。”

2月16日，360創(chuàng)始人周鴻祎發(fā)布微博提到自己對Sora的看法，周鴻祎認為，Sora的誕生意味著AGI（通用人工智能）實現(xiàn)可能從10年縮短至一兩年。

周鴻祎認為，科技競爭最終比拼的是讓人才密度和深厚積累，“很多人說Sora的效果吊打Pika和Runway。這很正常，和創(chuàng)業(yè)者團隊比，OpenAl這種有核心技術(shù)的公司實力還是非常強勁的。有人認為有了AI以后創(chuàng)業(yè)公司只需要做個體戶就行，實際今天再次證明這種想法是非常可笑的。”

此外，AI不一定那么快顛覆所有行業(yè)，但它能激發(fā)更多人的創(chuàng)作力。周鴻祎表示，很多人擔(dān)心Sora對影視工業(yè)的打擊，在他看來，機器能生產(chǎn)一個好視頻，但視頻的主題、腳本和分鏡頭策劃、臺詞的配合，都需要人的創(chuàng)意，至少需要人給提示詞。一個視頻或者電影是由無數(shù)個60秒組成的。今天Sora可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆，但它不一定那么快擊敗TikTok，更可能成為TikTok的創(chuàng)作工具。

談到Sora最大的優(yōu)勢，周鴻祎表示，以往文生視頻軟件都是在2D平面上對圖形元素進行操作，可以把視頻看成是多個真實圖片的組合，并沒有真正掌握這個世界的知識。但Sora產(chǎn)生的視頻里，它能像人一樣理解坦克是有巨大沖擊力的，坦克能撞毀汽車，而不會出現(xiàn)汽車撞毀坦克這樣的情況，“這次OpenAI利用它的大語言模型優(yōu)勢，讓Sora實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力，這樣產(chǎn)生的視頻才是真實的，才能跳出2D的范圍模擬真實的物理世界。”

周鴻祎提到，有了大模型技術(shù)作為基礎(chǔ)，再加上人類知識的引導(dǎo)，可以創(chuàng)造各個領(lǐng)域的超級工具，例如在生物醫(yī)學(xué)、蛋白質(zhì)、基因研究，包括物理、化學(xué)、數(shù)學(xué)的學(xué)科研究上，大模型都會發(fā)揮作用。

“一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube上和TikTok的視頻都看一遍，對世界的理解將遠遠超過文字學(xué)習(xí)，一幅圖勝過千言萬語，這就離AGI真的就不遠了，不是10年20年的問題，可能一兩年很快就可以實現(xiàn)。”周鴻祎感慨。

他還提到，盡管國內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5，但實際上跟4.0比還有一年半的差距。OpenAl手里應(yīng)該還有一些秘密武器，無論是GPT-5，還是機器自我學(xué)習(xí)自動產(chǎn)生內(nèi)容，“奧特曼（OpenAI CEO）是個營銷大師，知道怎樣掌握節(jié)奏，他們手里的武器并沒有全拿出來。這樣看來中國跟美國的AI差距可能還在加大。”

2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。據(jù)了解，通過文本指令，Sora可以直接輸出長達60秒的視頻，并且包含高度細致的背景、復(fù)雜的多角度鏡頭，以及富有情感的多個角色。

據(jù)介紹，Sora是基于過去對DALL·E和GPT的研究基礎(chǔ)構(gòu)建，利用DALL·E 3的重述提示詞技術(shù)，為視覺模型訓(xùn)練數(shù)據(jù)生成高描述性的標注，因此模型能更好的遵循文本指令。Sora能夠生成具有多個角色、特定類型的運動以及主題和背景的準確細節(jié)的復(fù)雜場景。不僅了解用戶在提示中要求的內(nèi)容，還了解這些東西在物理世界中的存在方式。同時，該模型對語言有深刻的理解，使其能夠準確地解釋提示并生成表達生動情感的引人注目的角色。

運用Sora也可以生成高清圖像。圖片來源：OpenAI官網(wǎng)

這意味著，繼文本、圖像之后，OpenAI將其先進的AI技術(shù)拓展到了視頻領(lǐng)域。OpenAI亦表示，Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ)，這一能力將是實現(xiàn)AGI（通用人工智能）的重要里程碑。

對于OpenAI視頻生成模型的出現(xiàn)，業(yè)內(nèi)其實早有預(yù)期，但仍有人評價稱“比想象中來得更快”，亦有人振奮地表示“我們真的看到新工業(yè)革命來臨”。

2月16日，業(yè)內(nèi)分析人士對《每日經(jīng)濟新聞》記者表示，Sora無疑是人工智能領(lǐng)域的一次重大突破，該技術(shù)不僅展示了AI在理解和創(chuàng)造復(fù)雜視覺內(nèi)容方面的先進能力，而且對內(nèi)容創(chuàng)作、娛樂和影視制作行業(yè)帶來了前所未有的挑戰(zhàn)和機遇。

每日經(jīng)濟新聞綜合周鴻祎微博、每日經(jīng)濟新聞（記者：熊嘉楠、可楊）

封面圖片來源：視頻截圖

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

“Sora只是小試牛刀，它展現(xiàn)的不僅僅是一個視頻制作的能力，而是大模型對真實世界有了理解和模擬之后，會帶來新的成果和突破。” 2月16日，360創(chuàng)始人周鴻祎發(fā)布微博提到自己對Sora的看法，周鴻祎認為，Sora的誕生意味著AGI（通用人工智能）實現(xiàn)可能從10年縮短至一兩年。周鴻祎認為，科技競爭最終比拼的是讓人才密度和深厚積累，“很多人說Sora的效果吊打Pika和Runway。這很正常，和創(chuàng)業(yè)者團隊比，OpenAl這種有核心技術(shù)的公司實力還是非常強勁的。有人認為有了AI以后創(chuàng)業(yè)公司只需要做個體戶就行，實際今天再次證明這種想法是非常可笑的。” 此外，AI不一定那么快顛覆所有行業(yè)，但它能激發(fā)更多人的創(chuàng)作力。周鴻祎表示，很多人擔(dān)心Sora對影視工業(yè)的打擊，在他看來，機器能生產(chǎn)一個好視頻，但視頻的主題、腳本和分鏡頭策劃、臺詞的配合，都需要人的創(chuàng)意，至少需要人給提示詞。一個視頻或者電影是由無數(shù)個60秒組成的。今天Sora可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆，但它不一定那么快擊敗TikTok，更可能成為TikTok的創(chuàng)作工具。談到Sora最大的優(yōu)勢，周鴻祎表示，以往文生視頻軟件都是在2D平面上對圖形元素進行操作，可以把視頻看成是多個真實圖片的組合，并沒有真正掌握這個世界的知識。但Sora產(chǎn)生的視頻里，它能像人一樣理解坦克是有巨大沖擊力的，坦克能撞毀汽車，而不會出現(xiàn)汽車撞毀坦克這樣的情況，“這次OpenAI利用它的大語言模型優(yōu)勢，讓Sora實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力，這樣產(chǎn)生的視頻才是真實的，才能跳出2D的范圍模擬真實的物理世界。” 周鴻祎提到，有了大模型技術(shù)作為基礎(chǔ)，再加上人類知識的引導(dǎo)，可以創(chuàng)造各個領(lǐng)域的超級工具，例如在生物醫(yī)學(xué)、蛋白質(zhì)、基因研究，包括物理、化學(xué)、數(shù)學(xué)的學(xué)科研究上，大模型都會發(fā)揮作用。 “一旦人工智能接上攝像頭，把所有的電影都看一遍，把YouTube上和TikTok的視頻都看一遍，對世界的理解將遠遠超過文字學(xué)習(xí)，一幅圖勝過千言萬語，這就離AGI真的就不遠了，不是10年20年的問題，可能一兩年很快就可以實現(xiàn)。”周鴻祎感慨。他還提到，盡管國內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5，但實際上跟4.0比還有一年半的差距。OpenAl手里應(yīng)該還有一些秘密武器，無論是GPT-5，還是機器自我學(xué)習(xí)自動產(chǎn)生內(nèi)容，“奧特曼（OpenAI CEO）是個營銷大師，知道怎樣掌握節(jié)奏，他們手里的武器并沒有全拿出來。這樣看來中國跟美國的AI差距可能還在加大。” 2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。據(jù)了解，通過文本指令，Sora可以直接輸出長達60秒的視頻，并且包含高度細致的背景、復(fù)雜的多角度鏡頭，以及富有情感的多個角色。據(jù)介紹，Sora是基于過去對DALL·E和GPT的研究基礎(chǔ)構(gòu)建，利用DALL·E 3的重述提示詞技術(shù)，為視覺模型訓(xùn)練數(shù)據(jù)生成高描述性的標注，因此模型能更好的遵循文本指令。Sora能夠生成具有多個角色、特定類型的運動以及主題和背景的準確細節(jié)的復(fù)雜場景。不僅了解用戶在提示中要求的內(nèi)容，還了解這些東西在物理世界中的存在方式。同時，該模型對語言有深刻的理解，使其能夠準確地解釋提示并生成表達生動情感的引人注目的角色。運用Sora也可以生成高清圖像。圖片來源：OpenAI官網(wǎng) 這意味著，繼文本、圖像之后，OpenAI將其先進的AI技術(shù)拓展到了視頻領(lǐng)域。OpenAI亦表示，Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ)，這一能力將是實現(xiàn)AGI（通用人工智能）的重要里程碑。對于OpenAI視頻生成模型的出現(xiàn)，業(yè)內(nèi)其實早有預(yù)期，但仍有人評價稱“比想象中來得更快”，亦有人振奮地表示“我們真的看到新工業(yè)革命來臨”。 2月16日，業(yè)內(nèi)分析人士對《每日經(jīng)濟新聞》記者表示，Sora無疑是人工智能領(lǐng)域的一次重大突破，該技術(shù)不僅展示了AI在理解和創(chuàng)造復(fù)雜視覺內(nèi)容方面的先進能力，而且對內(nèi)容創(chuàng)作、娛樂和影視制作行業(yè)帶來了前所未有的挑戰(zhàn)和機遇。每日經(jīng)濟新聞綜合周鴻祎微博、每日經(jīng)濟新聞（記者：熊嘉楠、可楊）翻譯搜索復(fù)制

視頻 Ai

上一篇文章

海口三港預(yù)計疏運需12小時以上

返回每經(jīng)網(wǎng)首頁

下一篇文章

日本一工廠廢水有害物質(zhì)超標準值3000余倍

相關(guān)文章