每日經濟新聞 2024-02-23 12:13:37
◎ 或許,能打敗OpenAI的只有OpenAI。
每經記者 文巧 鄭雨航 每經編輯 蘭素英
或許,能打敗OpenAI的只有OpenAI。
2022年底,OpenAI推出人工智能聊天機器人ChatGPT,開啟了大模型領域的“競速跑”模式。2024年2月15日,隨著視頻生成模型Sora的橫空出世,OpenAI再度掀起熱潮。
Sora將視頻生成內容拉到了一個全新的高度,逼真的視頻效果刷新了社會對AI能力邊界的認知。它的問世,就如同一枚深水炸彈,瞬間引爆全球科技圈。
不少業內人士直言,Sora的到來標志著一次質的飛躍。英國皇家工程院國際院士、歐洲科學院院士許彬(Pan Hui)在接受《每日經濟新聞》記者采訪時表示,“目前Sora在視頻生成品質上面絕對是無可匹敵的。Sora生成的視頻可以從小特寫切大全景,變換不同的機位。”
值得注意的是,文生視頻大模型并不是一條全新的賽道。為了更直觀地呈現Sora的文生視頻能力,《每日經濟新聞》記者采用OpenAI官方公布的5條Sora視頻提示詞,對Pika、Runway和PixVerse的文生視頻能力進行了測試,并將生成結果與Sora視頻進行了對比,測試場景涉及人物特寫、電影預告片等5類。
對比結果顯示,Sora在生成長度、連貫性和視覺細節方面表現出明顯的優勢,幾乎實現了“降維打擊”。
從ChatGPT到Sora,為何OpenAI能連續打造出“王炸級神器”?
加州大學伯克利分校計算機科學 PHD、知乎作者SIY.Z分析稱,“如果必須用一個詞來展現OpenAI最核心的技術,我覺得是scaling law——即怎么樣保證模型越大,數據越多,效果就越好。”從文本生成模型 GPT、文生圖模型 DALL·E,到文生視頻模型 Sora,OpenAI或許已經打造出了一條自己的AGI通用技術路線。
5大場景實測:
Sora在時長等4個維度上實現“降維打擊”
2月15日,OpenAI正式發布了首款文生視頻大模型Sora。演示視頻一經發布迅速引發業內熱議,部分網友更是哀嚎,“要失業了”。
華大集團CEO尹燁在一篇文章中寫道,“從這一刻,可擬合更多真實物理定律的數字孿生世界走進了人類社會。我愿意將其類比為,開啟了AI發展的牛頓時代。”
Sora的文生視頻能力到底有何突出之處?
由于Sora并未開放測試賬號,因此《每日經濟新聞》記者采用OpenAI官方公布的5條Sora視頻提示詞,在街頭、卡通動畫、人物特寫、動物特寫以及電影預告片這5大場景下對同類模型Runway、Pika和Pixverse進行了效果測試。同時,將OpenAI官方公布的Sora視頻與前述3個文生視頻大模型進行了對比。
效果測試對比發現,Sora在生成視頻的時長、連貫性和視覺細節方面表現出明顯的優勢,幾乎達到“吊打”的程度。
英國皇家工程院國際院士、歐洲科學院院士許彬(Pan Hui)在接受《每日經濟新聞》記者采訪時也表示,“Sora的核心優勢可以總結為,生成高清晰度的長視頻。不論是清晰度,還是時長,目前都是第一。OpenAI更專注在照片寫實主義的技術,雖然現在去討論它會否引領新浪潮可能為之尚早,但是目前Sora在視頻生成品質上面絕對是無可匹敵的。”
不過,需要說明的是,本次效果對比僅基于5個場景下的提示詞,場景和提示詞的數量均較為有限,并且不同模型生成的結果可能存在隨機性。
一位技術從業者也向每經記者表示,盡管Sora與其他文生視頻大模型的結果對比非常強烈,但不排除Sora的視頻是OpenAI多次生成后選取最好的一條予以發布,因此展示效果更優。
(1)更長的視頻時長
在與Runway、Pika和PixVerse的對比中,Sora生成的視頻平均長度將近16秒,最長達到20秒,而相比之下,其他三個模型生成的視頻長度均在3~4秒左右。Sora最長可以生成長達一分鐘的視頻,這使得Sora能夠更完整地呈現視頻內容,使其更適合制作短片、廣告和其他應用。
(2)更強的視頻連貫性
Sora生成的視頻具有無縫過渡、自然的攝像機移動和流暢的角色動畫,增強了整體觀看體驗。而相比之下,其他模型制作的視頻經常會出現場景突變、畫面不流暢等問題,影響觀看體驗。
許彬表示,“Sora可以改變視頻的視角。Sora生成的視頻,可以像一鏡到底一樣,從小特寫切大全景,變換不同的機位,但是保證畫面中的人物/物品。同時,(Sora生成的視頻中)物體的一致性很強。一致性一向是在視頻生成的領域里比較挑戰性的一環,而Sora在此方向表現很好。”
(3)更豐富的視覺細節
此外,每經記者發現,Sora生成的視頻視覺細節豐富,物體紋理清晰,色彩逼真,整體視頻質量更高。相比之下,其他模型生成的視頻通常顯得模糊、細節不足、色彩不那么鮮艷。
例如,在生成的“女人眨眼睛”的視頻中,Sora對女性眼部的特寫十分到位,從眉毛、睫毛、眼皮褶皺、眼袋、臥蠶和細紋的細節來看,已經達到以假亂真的效果。
(4)更能滿足不同的場景
從上述5大不同場景的呈現效果不難看出,Sora明顯更能夠滿足不同創作者的需求,無論是創作科幻場景、動畫人物,還是模擬真實場景,都可以輕松實現。
華鑫證券研報稱,Sora的核心技術是基于OpenAI在自然語言處理和圖像生成方面的深厚積累,與Runway、Pika等相比,Sora在視頻生成的真實感、細節表現上均具標志性價值。AI視頻生成雖不是新事,但Sora的推出有望推高AI多模態的熱度,可關注AI多模態應用塑造數字內容生產與交互新范式,賦能視覺行業,從文字、3D生成、動畫、電影、圖片、視頻、劇集等方面,有望帶來內容消費市場的繁榮發展。
從GPT到Sora,OpenAI打通AGI技術棧
從Sora身上,可以看到OpenAI沿襲了過往大語言模型訓練的許多成功經驗。
Sora視頻的逼真和連貫程度著實令人驚嘆,而幫助Sora實現能力飛躍的是該模型的兩項核心突破。
首先在底層架構上,Sora采用的Diffusion Transformer(DiT,或擴散型 Transformer)架構。
OpenAI的文本模型,例如GPT-4,就是采用的Transformer模型,傳統的文本到視頻模型通常是擴散模型(Diffusion Model),Sora采用的DiT架構則融合了GPT和傳統的擴散模型架構。
從OpenAI官網公布的Sora技術報告中可以發現,Sora采用的DiT架構的理論基礎是一篇名為Scalable diffusion models with transformers的學術論文。該篇論文是2022年12月由伯克利大學研究人員、現Sora團隊技術領導William (Bill) Peebles和紐約大學研究人員謝賽寧共同發表。
在Sora發布后,謝賽寧在X平臺上寫道,“當Bill和我參與DiT項目時,我們并未專注于創新,而是將重點放在了兩個方面:簡潔性(Simplicity)和可擴展性(Scalability)”。他表示,“可擴展性是論文的核心主題,優化的DiT架構的運行速度比UNet(傳統文本到視頻模型的技術路線)快得多。更重要的是,Sora證明了DiT縮放定律不僅適用于圖像,現在也適用于視頻——Sora復制了DiT中觀察到的視覺縮放行為。”
圖片來源:X平臺
其次,Spacetime Patch也是Sora創新的核心之一。在這一點上,Sora的設計思路和GPT-4也是一致的。
Patch可以理解為Sora的基本單元,Patch是視頻的片段,一個視頻可以理解不同Patch按照一定序列組織起來的。就像GPT-4 的基本單元是Token,而Token是文字的片段。GPT-4被訓練以處理一串Token,并預測出下一個Token。Sora遵循相同的邏輯,可以處理一系列的Patch,并預測出序列中的下一個Patch。
許彬向記者解釋,“把視頻數據變成一個個小塊(patches),讓模型對圖像的理解能夠像文字一樣。參考過往GPT的表現,GPT對文本的語義理解水平非常細膩,將同樣的原理應用在視頻上,可以增加數據的靈活性以及模型最后的表達能力。”
圖片來源:Sora技術報告
正如謝賽寧所談到的“Scalability”一樣,加州大學伯克利分校計算機科學 PHD、知乎作者SIY.Z在知乎上這樣寫道,“如果必須用一個詞來展現OpenAI最核心的技術,我覺得是scaling law——即怎么樣保證模型越大,數據越多,效果就越好。一句話概括 Sora 的貢獻,便是在足量的數據,優質的標注,靈活的編碼下,scaling law在transformer + diffusion model的架構上繼續成立。”
在他看來,數據、標注、編碼、底層架構都是來自于此前大模型的成功經驗。謝賽寧在X平臺也曾提到, Sora有兩個關鍵點尚未被提及,一是關于訓練數據的來源和構建,二是關于(自回歸的)長視頻生成相關的技術細節。
可以說,對于目前all in AGI的OpenAI來說,從文本生成模型 GPT、文生圖模型 DALL·E,到文生視頻模型 Sora,OpenAI或許已經打造出了一條自己的AGI通用技術路線。
值得注意的是,建立在此前成功經驗之上的Sora路線,可能會成為接下來的文生視頻模型新范式。早在1月,一位前阿里的AI專家在X平臺上表示,“我認為,Transformer框架和LLM路線,將是AI視頻的一個突破口和新范式,它將使AI視頻更加連貫、一致,并且時長更長。目前的Diffusion+Unet路線(如Runway、Pika等),只是暫時的解決方案。”
圖片來源:X平臺
800億美元!“資本狂歡”,OpenAI估值9個月增長兩倍
從聊天機器人ChatGPT,到文本轉圖像模型DALL·E,再到近期的文本轉視頻模型Sora,風口上的OpenAI成為資本市場不變的關注焦點。
實際上,文生視頻大模型并不是一條全新的賽道。很多文生視頻大模型早已走入大眾的視野,例如Stability AI的Stable Video Diffusion、Runway的Gen-2 Video、谷歌的Lumiere、Meta的Make-A-Video、Pika以及PixVerse等等。
其中,Pika在去年11月正式發布Pika 1.0后更是掀起全球熱潮,其創始人郭文景也名聲大噪,Pika 1.0也被稱作是Runway Gen-2的最強競品。不過,在Sora火爆出圈后,隨著其所代表的新技術路線的出現,文生視頻領域的版圖恐怕要重新改寫了。
一方面,核心技術是一道鴻溝——Diffusion Transformer和Spacetime Patch并非新鮮事物,但卻只有OpenAI成功推出了Sora。并且,從文生視頻的實測對比來看,Sora的確實現了降維打擊。
另一方面,從估值和融資規模來看,背靠微軟的OpenAI在AI初創公司中可以說是斷層領先。之所以其產品一經發布,就能讓行業震驚于其超強的迭代能力,恐怕也離不開背后的燒錢。
圖片來源:每經制圖
Sora火爆出圈后,資本圈的最新消息是, OpenAI的估值已飆升至800億美元以上,值得一提的是,該公司的估值在9個月的時間里增長了兩倍。
除了各種AI大模型產品之外,OpenAI CEO山姆·阿爾特曼還瞄準了半導體領域。據報道,阿爾特曼正與潛在投資者、半導體制造商和能源供應商等各種利益相關者接觸,預計將融資7萬億美元打造芯片帝國。
在技術和資金的加持下,OpenAI在接下來的時間里,可能還將繼續遙遙領先。
與之相比,Runway截至目前累計融資超2.5億美元。TechCrunch報道稱,Runway的估值在去年6月底達到15億美元,其投資者包括谷歌、英偉達、Salesforce等。
Pika的估值目前近2億美元,這家僅有四人的初創公司有著非常豪華的投資人陣容,包括前Github CEO Nat Friedman、Quora創始人Adam D'Angelo、OpenAI創始成員Karpathy、Perplexity CEO等。
去年11月,Stability AI的估值達到約10億美元。不過,Stability AI今年來也不斷面臨著資金方面的壓力。2023年11月,Stability AI被曝出由于財務狀況壓力巨大正在尋求出售。此外,其重要投資者美國對沖基金Coatue Management還在去年10月致信管理層,要求CEO埃馬德·莫斯塔克辭職。
內容創作領域將被顛覆
監管迫在眉睫
圖片來源:新華社記者 黃偉 攝
許多人認為,Sora的出現可以改變一系列創意產業,從電影制作、廣告到圖形設計,從游戲開發到社交媒體、影響力營銷甚至教育科技等領域都將受到影響。
“最直接的是視頻制作領域。不管是電影,還是人人都能參與的短視頻,很多危險的,不容易拍攝的場景,都可以讓AI幫我們完成。這樣大大改變了視頻創作的邏輯,也降低了視頻創作的門檻。不具備視頻拍攝能力的人,通過自己的想象力,也可以變成優秀的視頻創作者。”許彬說道。
他同時告訴記者,Sora和其他類似的AI視頻模型在多個行業都顯示出巨大的商業潛力和市場需求。“包括媒體和娛樂、銀行、金融服務與保險、零售以及醫療保健等行業將極大受益于生成式AI的進步。這些技術的應用不僅可以優化營銷和銷售活動,改善客戶服務,還能加強產品開發和風險管理。”
許彬同時表示,“生成式AI在這些領域的變革潛力已表明了廣泛的市場需求和跨行業的巨大經濟價值,可能為各個行業創造2.6萬億至4.4萬億美元的價值。”
此外,據外媒報道,光速印度合伙人Hemant Mohapatra將Sora的出現比作為潘多拉的魔盒已經打開,將會讓一切都發生改變。“它生成的視頻質量之高,會讓庫存視頻生成公司立即感受到威脅。”
二級市場的腥風血雨已經可以印證這一說法。Sora發布的次日,美國電腦軟件公司Adobe股價暴跌超7%;美國圖片庫、圖片素材、圖片音樂和編輯工具供應商Shutterstock跌超5%;幾周前發布了“文生視頻”工具Lumiere的谷歌母公司股價下挫1.58%。三家公司一天內就合計蒸發近480億美元的市值。
另一方面,隨著AI的快速發展,有關其風險的討論也一直未曾停歇,如何防止其被濫用或誤用以及如何避免其對人們的認知產生負面影響是業內許多專家探討的重點之一。
“視頻生成很容易應用在詐騙領域。很多地方都有人臉識別,視頻生成也讓過往的技術變得不再安全。為了減輕這些技術可能帶來的風險,建立健全的道德準則、實施嚴格的數據隱私措施,以及確保AI模型開發和使用的透明度至關重要。”許彬告訴記者。
隨著AI的發展,各國也在致力于加強對AI的監管。早在去年10月,美國白宮首次發布針對AI的行政令,將對AI研發和應用制定全面的監管標準。去年11月,中國、美國、英國、歐盟等多方代表在首屆全球人工智能安全峰會上簽署了《布萊切利宣言》。
許彬認為,未來,重點可能會轉向增強(AI)能力,同時確保以合乎道德和負責任的方式開發和使用它們,以最大限度地發揮其對各個行業的積極影響。“AI視頻模型正在朝著更負責任的AI實踐方向發展,(需要)通過投資研發來增強AI應用的安全性和保障。采取積極主動的方法來解決這些社會和倫理問題是可能的。”
記者手記丨從舊架構中實現新突破,OpenAI的邊界不止于此
OpenAI的每一次動作幾乎都會給科技圈帶來一次巨震。盡管文生視頻模型已非首次發表,但毫無疑問,Sora帶來了一次質的飛躍,在時長、連貫性和視覺細節等方面的突破都是前所未有的。
而令記者感到驚訝的是,在查閱相關的技術解讀時發現,Sora從底層架構上來說并非是全新的技術,例如,DiT架構和Patch的論文都是去年就發表的。從Sora身上,也可以看到OpenAI過往大語言模型訓練的成功經驗。然而,只有OpenAI從舊架構中實現了新的突破,這或許意味著,無論是OpenAI這家公司,還是AI算法本身,它們的邊界還遠不止于此。
Sora再次展示了AI的無限可能,行業的顛覆也可能再次到來。不過,有技術從業者也告訴記者,在觀察Sora的提示詞發現,文生視頻模型的使用門檻比較高,用戶要有比較強的描述能力。若要完成一個品質較高的作品,也很考驗用戶的審美能力。
與此同時,也不得不提到AI風險的老生常談。更上一層樓的技術可能將為AI詐騙等犯罪行為提供溫床,因此,建立健全監管措施,確保AI不被誤用和濫用是一項重要的議題。
策劃|肖勇 孫宇婷
記者|文巧 鄭雨航
編輯|蘭素英
視覺|劉青彥
視頻|張涵
排版|蘭素英
(實習生楊藍西、陳君瑤對本文亦有貢獻。)
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP