每日經濟新聞 2024-06-20 20:18:40
◎測試和觀察后發現,雖然在部分維度Sora仍然領先,且可靈由于尚處開放初期,上線功能相對單一,生成存在一定限制,但幾乎可以判斷,國產視頻生成大模型已經上升到了一個新的高度。
每經記者 王郁彪 溫夢華 每經編輯 董興生
大洋彼岸,Sora的到來,似乎讓AI有了睜眼看世界的可能。在官方表述中,Sora被稱為“世界模擬器”:它理解真實的規則,并在此基礎上生成“世界”。
如果說從前還是一道銅墻鐵壁,那么現在,虛擬與真實可能僅一線之隔。大家都不想做創建虛構的玩具,而是想成為生成世界的“造夢機”。Sora之后,它的挑戰者們前赴后繼。
6月,視頻生成大模型迎來又一輪新品爆發,生成式AI賽道像是“過年了”??焓挚伸`、Luma AI以及Runway迭代更新后的Gen-3 Alpha等現象級爆款不斷涌現。其中,討論度最高的是快手自研視頻生成大模型“可靈”,全面對標Sora。
《每日經濟新聞》記者將OpenAI官方公布的5條Sora視頻提示詞投喂給可靈,對其文生視頻的能力進行測試,同時從動態、視效、細節、場景等多維度表現進行結果比對和關聯。
每經記者從五大場景全面評測Sora和快手可靈
測試和觀察后發現,雖然在部分維度Sora仍然領先,且可靈由于尚處開放初期,上線功能相對單一,生成存在一定限制,但幾乎可以判斷,國產視頻生成大模型已經上升到了一個新的高度。
國金證券互聯網傳媒首席分析師陳澤敏在接受記者采訪時表示,拋開技術,快手“可靈”已經實現一部分絕對真實世界觀的數據支持,AI對不同世界觀的快速理解以及在視頻上的反應,“這是我認為不可思議的”。
Sora之后,國內視頻生成大模型不斷推出。
3月底,字節旗下Dreamina(即夢)內測視頻生成功能;4月底,生數科技首個文生視頻模型Vidu發布;5月,騰訊也開源了DiT架構的混元文生圖模型。
今年以來,快手先后發布1750億參數規模的通用大語言模型“快意”和文生圖大模型產品“可圖”。視頻生成大模型可靈則在6月被推出,快手方面稱,可靈能夠生成大幅度的合理運動,模擬物理世界特性,生成的視頻分辨率達1080p,時長最長可達2分鐘。圖生視頻功能后續開放。
《每日經濟新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞(東京街頭的女士、太空人、無人機視角的海岸、3D動畫的小怪物、云端讀書的年輕人)測試可靈。同時比對生成視頻進行效果測試,從“畫面呈現”“功能與體驗”兩大維度下的多個具體表現進行總結。
在畫面呈現上:
1、動態效果。可靈的“鏡頭”普遍為前后向邏輯推進,Sora則更豐富。在“海浪撞擊懸崖的無人機視圖”一項,Sora畫面的聚焦點在提示詞中“有燈塔的小島”,對整個環境進行環視,重點突出??伸`的鏡頭前后推進,小島被設置在畫面的最遠端,沒有重點突出小島。不過,Sora和可靈對海浪的運動軌跡描述都很準確。
Sora(上)與可靈(下)生成視頻對比 圖片來源:視頻截圖
2、視覺效果。這一項上,Sora和可靈表現都較為優秀。特別是在“東京街頭的女士”視頻畫面呈現上,無論是對霓虹燈色彩的展示,還是潮濕地面反光的呈現,兩個模型的畫面光影表達都很準確。
Sora(上)與可靈(下)生成視頻對比 圖片來源:視頻截圖
3、細節表現。記者重點關注到二者對人的五官的呈現。Sora的刻畫更細致,特別是人在動態場景下,五官沒有變形,幾乎是相對靜態的??伸`在動態場景下,人的五官有所變形,會隨著畫面鏡頭的推進、人的動作而扭曲。
但在“3D動畫的小怪物”生成上,可靈的細節表現與Sora差別不大,特別是對小怪物蓬松毛發特性的捕捉和呈現上,很精準也很細致。
Sora(上)與可靈(下)生成視頻對比 圖片來源:視頻截圖
4、連貫性和流暢度。Sora和可靈的畫面表現均連貫、流暢,但稍有不同的是,對復雜場景的描述,Sora明顯更優。特別是在“太空人”的畫面生成上,可靈的畫面只給出了太空人的正面特寫,但Sora呈現了遠近景的切換,添加了更多輔助元素,如飛船等。
在功能和體驗上,Sora與可靈視頻生成的風格都更偏向模擬真實世界的場景。無論是科幻場景、自然風光、超自然畫面、3D動畫等都更加側重寫實的風格。
在不同場景的適配上,Sora的能力似乎更勝一籌。在對“云端上讀書的年輕人”的畫面生成上,可靈的貼圖感更重,素材間的融合度不高。語義的理解上,Sora和可靈都較為準確,特別是對提示詞中不同主體的捕捉,都比較完整。
Sora(上)與可靈(下)生成視頻對比 圖片來源:視頻截圖
不過,需要注意的是,可靈目前生成的視頻長度均為5秒,與Sora的10至20秒相比,前者在復雜場景的敘述處理上會呈現一定的局限性。上線初期的可靈,功能較單一,風格切換等有局限性。
此外,《每日經濟新聞》記者也在體驗時發現,在一些視頻生成時,“可靈”也會“失靈”。例如,彈吉他的熊貓擁有人類的手指;提示詞中“淺綠色的布藝沙發”,到了視頻中呈現的則是紅棕色的皮質沙發。同時,在一些視頻中,當有多個主體時,有時也會出現一些元素無法完全呈現在視頻中的情況。
圖片來源:視頻截圖
而在生成“10歲小女孩在羽毛球場比賽”時,小女孩手里的羽毛球拍變成了網球拍,且只有乒乓球拍大小,羽毛球也變成了網球??梢?,實際生成視頻時,可靈有時存在一些較大的偏差。
圖片來源:視頻截圖
值得注意的是,上述可靈視頻由記者測試生成,不同版本視頻可能存在差異。而目前Sora仍未開放,所生成視頻均為官方發布的版本,待Sora開放測試后,用戶實際測試效果或許與官方發布視頻也有差異。
“肯定是超出預期的,而且最先推出來比肩Sora的是快手團隊,還挺意外。”多位在互聯網行業深耕多年的資深行業人士、資深產業分析師在接受《每日經濟新聞》記者采訪時坦言。
隨著快手“可靈”正式開放內測,社交平臺上,已有不少博主、創作者分享自己使用“可靈”的體驗,國外創作者們也是各種求內測。雖然目前內測只能生成5秒視頻,但已經有不少體驗者通過多個視頻組合成短片,不少網友笑稱“壓力給到了抖音剪映”。
早在2023年初,快手就啟動了新AI戰略,在最近幾次財報電話會議上,快手聯合創始人兼首席執行官程一笑也頻頻談及快手自研大模型的研究及應用進展。不過,在很多人看來,快手更側重于短視頻和社交內容,而非專業的視頻剪輯工具。此前的大模型競爭中,快手也并不是引人關注的第一梯隊成員。
此前,快手推出的通用大語言模型“快意”以及文生圖大模型產品“可圖”,在市場的關注度和影響力均相對有限。如今,“可靈”的出現,讓國內大模型賽道看到了對標Sora“彎道超車”的可能。
可靈生成的“3D動畫的小怪物”
《每日經濟新聞》記者了解到,在架構選擇方面,可靈整體框架采用了類似Sora的DiT結構,用Transformer代替了傳統擴散模型中基于卷積網絡的U-Net。同時,在此基礎上,快手大模型團隊還對模型中的隱空間編/解碼、時序建模等模塊進行了升維。
在陳澤敏看來,拋開技術,快手“可靈”已經實現一部分絕對真實世界觀的數據支持,AI對不同世界觀的快速理解以及在視頻上的反應,“這是我認為不可思議的”。
在互聯網產業深耕多年的某頭部游戲公司高管李嚴(化名)認為,或許抖音未來也會推出類似的文生視頻模型,但目前“可靈”的推出,最大的意義在于,它證明Sora的技術架構路線是可以被復現的,并且依托短視頻平臺的海量、優質過往數據,是可以后來居上的。同時,也說明之前Sora出現時業內對它“真實世界模擬器”的評價可能過高。
相關研報指出,目前,國內大語言及多模態大模型正持續追趕海外主流大模型,模型能力逐步提升,帶動下游應用發展。過去幾個月,國內頭部應用總訪問量與海外頭部應用總訪問量差距逐漸縮小,看好未來國內應用快速增長的趨勢。
陳澤敏指出,雖然“可靈”搶跑為快手在文生視頻賽道開了一個好頭,但這條道路要持續走下去,仍需要很大投入。
“未來如果‘可靈’能夠延長到完整的15秒,并擁有連貫、不拖影、多元世界觀融合的高質量視頻,那一定會對短視頻的生產方式帶來變化,越來越多的創作者或許將被取代,但好內容的價值也會更高。”陳澤敏告訴《每日經濟新聞》記者。
可靈生成的“云端上讀書的年輕人”
今年春節期間,OpenAI的文生視頻大模型Sora橫空出世,轟動整個科技圈,不少從業者將追趕Sora定為新的“小目標”。
灼識咨詢相關報告數據顯示,全球AI市場的市場規模預計于2027年達到5624億美元,中國AI市場的規模(按收入計)已由2018年的560億元增至2022年的1942億元,預計于2027年達到6448億元。
巨大的市場潛力之下,在文生視頻大模型領域,Sora之外,Runway、Pika、Stable Video Diffusion等眾多創業公司競相角逐。
不過,在陳澤敏看來,雖然越來越多的公司身處AI大風口,但未來留下的公司將越來越少,行業將進入邊際余量的競爭中。
“例如像英偉達這類確定性比較強的頭部公司會更受資本關注,而對于軟件服務這類公司,目前資本仍持懷疑態度。而在AI生成賽道,仍是‘頭部玩家勝者為王’的模式,頭部勝者的集中度更高,小公司不容樂觀。”陳澤敏表示。
雖然人人都想趕上AIGC這趟“時代列車”,但今年以來,AIGC領域的投資風向正在悄然發生變化。
灼識咨詢執行董事姜驍瀟向《每日經濟新聞》記者分析表示,資本從對通用大模型的廣泛關注轉向更加聚焦于具有明確市場需求和實際應用場景的垂直模型。許多投資人現在更多的是觀察而非直接投入大模型項目,并將實際投資更多地投向了具有更強商業化能力的應用層項目,資本更側重于項目的商業化潛力和能力。
商業化前景也成為市場和資本關心的問題。AI生成的內容,究竟能不能獲得用戶真金白銀的買單,目前仍要畫一個大大的問號。
姜驍瀟認為,目前來看,大模型行業正處在應用拓展階段。在這個階段,AIGC技術將被廣泛應用于各個領域,但目前AIGC行業尚未完全實現成熟的商業化。
“‘可靈’和類似的文生視頻大模型在未來的商業化潛力相當大。”姜驍瀟觀察到,在影視和廣告制作中,文生視頻大模型可以用于快速生成特效、場景設計和虛擬角色等,節省成本和時間,提高效率;在虛擬現實和游戲開發領域,這些模型可以用于生成角色動畫和互動場景,為用戶提供更加身臨其境的體驗等。
Sora釋放的“沖擊波”還在持續蔓延,官方發布的多個預覽視頻里,五彩斑斕的現實世界似乎已經被搬上虛擬的“頻道”。
但Sora和它的挑戰者們,并不想虛構世界,而是在理解真實世界的規則基礎上,生成一個全新的世界。
“硅谷精神之父”、《連線》雜志創始主編凱文•凱利在2019年寫道:“鏡像世界尚未完全存在,但它正在到來。”而此前他曾預言,“萬物都會有數字版本,這世間所有,都將在數字世界建立鏡像”,至于還要多久,凱文•凱利認為,“是5000天后”。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP