每日經濟新聞 2024-02-16 19:11:11
◎2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。據了解,通過文本指令,Sora可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。
每經記者 熊嘉楠 可楊 每經編輯 楊夏
2022年末,OpenAI聊天機器人ChatGPT的面世無疑成為了引領人工智能浪潮的標志性事件,宣告了新一輪科技革命的到來。無論是聊天娛樂、教育學習,還是工作生產、醫療健康等領域,人工智能正以前所未有的速度滲透到我們生活的方方面面。
而就在2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。據了解,通過文本指令,Sora可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。
這意味著,繼文本、圖像之后,OpenAI將其先進的AI技術拓展到了視頻領域。OpenAI亦表示,Sora是能夠理解和模擬現實世界的模型的基礎,這一能力將是實現AGI(通用人工智能)的重要里程碑。
對于OpenAI視頻生成模型的出現,業內其實早有預期,但仍有人評價稱“比想象中來得更快”,亦有人振奮地表示“我們真的看到新工業革命來臨”。
2月16日,業內分析人士對《每日經濟新聞》記者表示,Sora無疑是人工智能領域的一次重大突破,該技術不僅展示了AI在理解和創造復雜視覺內容方面的先進能力,而且對內容創作、娛樂和影視制作行業帶來了前所未有的挑戰和機遇。
2021年初和2022年末,OpenAI分別推出了圖像生成系統DALL·E和聊天機器人ChatGPT。這也使得AI逐漸成為各行各業輔助工作的工具,也正逐漸改變人們對未來工作的看法。
據介紹,Sora是基于過去對DALL·E和GPT的研究基礎構建,利用DALL·E 3的重述提示詞技術,為視覺模型訓練數據生成高描述性的標注,因此模型能更好的遵循文本指令。
Sora能夠生成具有多個角色、特定類型的運動以及主題和背景的準確細節的復雜場景。不僅了解用戶在提示中要求的內容,還了解這些東西在物理世界中的存在方式。同時,該模型對語言有深刻的理解,使其能夠準確地解釋提示并生成表達生動情感的引人注目的角色。
對于Sora的面世,工信部信息通信經濟專家委員會委員、數字經濟專家劉興亮稱,這標志著AI技術在內容創作領域的一個新紀元。“通過簡短的文本提示或一張靜態圖片,Sora能夠生成持續一分鐘左右的1080P高清視頻,涵蓋多個角色、不同類型的動作和背景細節等,幾乎達到了電影級別的逼真場景。這種能力不僅為內容創作者提供了前所未有的工具,使他們能夠以更低的成本和更快的速度將創意變為現實,而且為觀眾帶來了更豐富和多樣化的視覺體驗。技術創新的這一巨大飛躍,預示著AI在未來人類生活的各個方面都將發揮更加重要的作用。”劉興亮表示。
而Sora以文字為核心的提示,將能夠形成更加符合人類觀念的連續視頻,該模型的出現無疑將會對人們現有工作方式進行再一次迭代,同時也會對傳統行業轉型提出新的挑戰。
生成式AI過去已積累了不少圖像、聲音等素材,并通過不斷學習形成了更為成熟的算法。因此,若是可以通過AI在計算機中創建視頻素材,或許將對影視行業產生重大影響。
劉興亮稱,AI生成的視頻可能減少了對人類演員、導演和其他創意角色的需求,從而影響到這個行業的就業。此外,隨著AI技術的進步,傳統的影視制作流程和商業模式也可能面臨重塑。
不過,劉興亮指出,這種轉型并不意味著傳統影視行業的消亡,而是需要與AI技術融合,探索新的藝術形式和表達方式。
實際上,自生成式AI出現以來,該技術一直在大肆“入侵”影視制作的全流程,由人工智能產出的內容也越來越普遍。
去年由哈里森·福特主演的《奪寶奇兵》第五部中,就利用AI技術讓觀眾看到40年前青年時的福特;Netflix網飛也在同年推出了由AIGC參與制作的動畫短片《犬與少年》。
劉興亮同時提到,隨著AI生成內容與現實之間的界限變得越來越模糊,如何確保內容的真實性和透明性成為了一個重要問題。此外,版權、隱私和數據安全等問題也需要得到妥善解決。社會必須面對這些挑戰,通過制定相關政策、法律和倫理準則來確保技術的健康發展,同時保護個人和社會的利益不受侵害。
正如劉興亮所說,AI視頻技術的誕生面臨著一系列的問題。而除了對現實世界的影響,作為剛剛面世的全新技術,Sora也存在不足之處。
對于Sora當前存在的弱點,OpenAI指出它可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系。該模型還可能混淆提示的空間細節,例如混淆左右,并且可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌跡。
Sora生成的視頻中可能會出現不符合物理原理的場景,比如這個人正在反向跑步。
圖片來源:OpenAI官網
以此次發布的DEMO“與中國龍一起慶祝農歷新年的視頻”為例,Sora無法準確生成視頻畫面中的中文受到了網友的關注。有相關人士對此調侃道:“莫非是中文太難了?”
但是任何事件的發生都是從無到有,再從有到精的過程。據悉,Sora如今正面向部分用戶開放,以評估關鍵領域的潛在危害或風險。同時,OpenAI也邀請了一批視覺藝術家、設計師和電影制作人加入,期望獲得寶貴反饋,以推動模型進步,更好地助力創意工作者。OpenAI提前分享研究進展,旨在與OpenAI以外的人士合作并獲取反饋,讓公眾了解即將到來的AI技術新篇章。
OpenAI表示,他們正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界交互的問題。
而相比于其自身缺陷,該技術的廣泛前景更為外界所關注。
近兩年,由于人工智能發展迅速,以至于很多企業紛紛加大了對人工智能的投入。科技創業公司研究機構PitchBook估計,2023年全球生成式AI的市場規模將達426億美元,2026年則將達到981億美元,未來增長動能可期。
隨著生成式人工智能的市場潛力不斷地被挖掘,大大小小的競爭對手開始浮出水面。
當前,參與該賽道的企業不乏亞馬遜、微軟、谷歌、百度、阿里等眾多互聯網巨頭,也包括Runway等初創企業。
有行業人士指出,隨著Sora的發布,OpenAI在行業的領先程度立即加大,會將大家緊追的距離再度拉開一大截。未來,解決了人物一致性問題之后,AI生成視頻將大踏步前進,AI視頻或進入大爆發期。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP