每日經濟新聞 2024-03-17 23:29:54
每經記者 王郁彪 每經編輯 文多
AI(人工智能)大潮洶涌,真實與虛擬,正在被無限模糊。2024年伊始,OpenAI用它的首個視頻生成模型Sora宣告了AI新階段的到來——僅憑簡單的文字描述,便可深度模擬真實物理世界,生成最長60秒的擬真視頻。
如果把AI比作剛出生的嬰兒,大語言模型的誕生則意味著它開口講話,Sora的面世相當于他/她睜開了雙眼,并把自己觀察到的一切轉化為畫面與聲音。
隨著AI技術不斷發展與應用,在AI賦能過程中,如何平衡其中的創新與挑戰?3月15日,由工業和信息化部工業文化發展中心牽頭成立的AI應用工作組主辦,每日經濟新聞承辦、數智未來場景實驗室協辦的“Sora的啟示:AI應用再飛躍”主題沙龍活動在京成功舉辦。
北京航空航天大學計算機學院副教授巢文涵在主旨演講環節表示,生成式AI的迭代速度降低了用戶端的再訓練必要性,因此,想要在生成式AI的應用中尋求進一步突破,應該從訓練和創造AI,逐漸走向調用和激發AI潛力。
圖為北京航空航天大學計算機學院副教授巢文涵進行主旨演講 v每經記者 韓陽 攝
Sora尚有諸多局限性
當其他AI視頻工具還在突破幾秒內的連貫性時,Sora已經可以快速制作最長1分鐘、準確反映用戶提示、可一鏡到底的視頻。
對于Sora在技術上的突破,巢文涵認為,Sora實際上是一個“Diffusion+Transformer模型”(Diffusion、Transformer分別為模型名稱),是二者組合成的強大信息提取器。Sora繼承了DallE3(OpenAI 開發的最新文本到圖像轉換工具)的畫質和遵循指令的能力,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。因其根據靜態圖像生成視頻的能力,Sora在動圖制作、廣告設計等領域具有不小的應用前景。不過,Sora能夠獲取現有視頻并對其進行擴展或填充缺失的幀,這一功能在視頻編輯、電影特效等領域也將有不俗的應用表現。
值得一提的是,用戶還可以使用Sora連接兩個輸入視頻,在完全不同的主題和場景組成的視頻間實現無縫過渡。
Sora在技術上的突破及其未來廣闊的應用前景,使得AI又上升到了全新的維度。“Sora雖被定義為一款人工智能文生視頻大模型,但其實,OpenAI并未將其單純視為視頻模型,而是作為‘世界模擬器’。”巢文涵如此表示。
從時尚展示到動漫制作,從心理治療到建筑規劃,Sora可以為多個相關領域進行全新創造、再創造。
不過,巢文涵認為,目前Sora同樣擁有諸多局限性。比如,Sora在處理復雜場景時對物理規則的應用不一致,因此出現無法準確模擬出因果關系的特定情況。這也可以解釋,為什么在Sora生成的視頻里,時常能看到變形的椅子飛向天空的畫面。
巢文涵進一步補充說,在人機交互、充分理解空間和時間的復雜性以及使用限制上,Sora還有非常多的局限性。
難免引發一系列問題
那么,如何在AI技術不斷突破的過程中,繼續逐點擊破AI賦能和應用的難點,平衡創新與挑戰?巢文涵表示,生成式AI應用,應該從訓練和創造AI,走向調用和激發AI潛力。
“生成式AI的迭代速度降低了用戶端的再訓練必要性,關鍵是用戶怎么調用這些生成式AI。同時,大模型本身外部檢索、多模態能力都非常強,本身是一個好的搜索入口。”他接著補充說,“應該進一步去APP化,提供更多維度的綜合應用交互方式。”
在巢文涵看來,大模型本身具備生態插件及融合能力,其自身會調用服務接口,不需要打開APP,而是需要設計合理的API(應用程序編程接口)接口。此外,還需打破傳統AI應用中語音、文字、圖片等不同格式內容的界限,提供更多維度的綜合應用交互方式。
從技術層面考量,Sora也面臨一系列挑戰,包括可擴展性和計算資源、隱私和倫理問題以及就業和社會變革等。在這些挑戰中,巢文涵特別提到了深度偽造。他注意到,不法分子會利用機器的深度學習技術,進行圖像、聲音、視頻的篡改、偽造和自動生成,產生高度逼真且難以甄別的內容。
巢文涵認為,Sora對社會生產力和產業發展的促進作用毋庸置疑,但同時,Sora創造的大量虛擬視頻會污染現存的圖像數據,引發一系列問題。因此,他建議,應該建立法律和監管框架,同時提供政策支持,增強創新意識,加強數據保護與安全。
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP