每日經濟新聞 2024-05-09 13:01:07
每經編輯 黃勝 每經實習編輯 宋欣悅
2月15日, 美國人工智能公司OpenAI發布了最新“文生視頻”大模型Sora,并附帶發布了由它生成的48段視頻,引發了整個市場的高度關注。Sora生成視頻的畫面逼真、連貫流暢,在視頻時長方面,也遠遠領先于其競爭對手,一度被視為吹向好萊塢的一場大風暴。
在Sora公布的作品中,一部名為《氣球人(Air Head)》的短片,因情節完整、敘事性強,引發廣泛討論。在國內外各大平臺上,網友們更是毫不吝嗇地夸贊這部作品,甚至有人譽之為“Sora史上最佳發布”。
然而,近日,《氣球人(Air Head)》制作團隊Shy Kids在接受在線媒體平臺Fxguide的采訪時,基于他們使用Sora的親身體驗,揭示了Sora在視頻生成方面的局限。
Shy Kids揭露,《氣球人》這部短片,是三人耗費近兩周才完成,后期工作量只增不減。
圖片來源:截圖于fxguide
在Sora的用戶操作界面中,藝術家可以輸入文本,隨后ChatGPT會將這些文本轉化成更長的一段文字,從而觸發生成一段視頻。然而,Sora目前并沒有支持其他輸入方式,也沒有實現多模態功能。這是一個重要的短板,因為盡管Sora在同一鏡頭中的物體一致性處理得還不錯,但系統目前還無法確保第一個鏡頭中的內容與隨后的鏡頭完全匹配。也就是說,即便我們第二次輸入同樣的提示語,結果也可能不同。
帕特里克在Shy Kids制作團隊中,負責后期制作,他說:“我們能做的就是,在提示中盡可能對角色的服裝以及氣球的類型進行詳細地描述。”
Sora生成的每個獨立片段,就其所代表的技術而言,都是令人驚嘆的。然而,如何有效利用這些片段,取決于用戶對 Sora隱式或顯式鏡頭生成方式的理解。
例如,假設你讓Sora生成一個在廚房中的長跟蹤鏡頭,并確保畫面中的桌上有個香蕉,Sora 將依賴于其對“香蕉”這一概念的隱式理解來生成一個顯示香蕉的視頻。通過訓練數據,Sora學習了香蕉的隱含特性,如“黃色”、“彎曲”、“有深色末端”等,但它并未存有具體的香蕉圖像,也沒有一個“香蕉圖像庫”,它只有一個相對較小、用于壓縮存儲的“潛在空間”。在這個空間中,“香蕉”僅僅是一個抽象的概念。
這就意味著,每次生成的結果都是Sora對這個“潛在空間”的一種新的解讀,這就需要我們的提示盡可能精確地描述我們對這些隱式特征的理解。
Shy Kids團隊表示,在制作《氣球人》的過程中,很難確保實際黃色氣球人在每個鏡頭中保持一致,《氣球人》中場景,是通過多次后期剪輯來接近劇本的。即使團隊明確要求生成一個黃色氣球,但最后生成的氣球卻可能是其它顏色,有時,氣球上甚至會莫名出現一個臉部圖案。另外,因為很多氣球都帶有繩子,Sora自動將“氣球”和“繩子”關聯到了一起。在《氣球人》中,角色Sonny的襯衫前面總是垂著一條繩子,這些繩子都需要在后期制作中移除。
帶有臉部圖案的氣球人 圖片來源:fxguide
雖說在《氣球人》的制作中,Shy Kids團隊使用的都是Sora所生成的畫面,但大多經過了調色和再處理。帕特里克解釋說,Sora最高可以支持720P的分辨率,1080P分辨率也已經推出,但渲染時間過長,為提高前期效率,團隊都是在較低分辨率下生成的《氣球人》的所有制作內容,后期再通過Topaz軟件去提高分辨率。
Sora所生成的視頻片段,能以不同的時間長度進行渲染,如3秒、5秒、10秒、20秒,最長可達一分鐘。渲染時間會根據一天中的時間和云服務的需求而有所變化。帕特里克回憶說:“通常情況下,每次渲染大約需要10到20分鐘。渲染的段落長度對實際渲染時間的影響并不太大。如果渲染的內容長度在3秒到20秒之間,實際所需的渲染時間通常都在10到20分鐘這個范圍內。”他解釋說:“我們之所以會這樣做,是因為,如果獲得了一段完整的20秒視頻,我們就有更大的機會進行剪輯操作,這也相應地增加了得到滿意成果的可能性。”
盡管可以在時間線上對關鍵幀進行調整,但對于動作發生的確切時間點控制并不精確,結果具有一定的不確定性。帕特里克說,“這有點像摸黑射擊,就像老虎機一樣,不確定它是否能在此時實現這些效果。”當然,Shy Kids使用的是Sora的最早原型之一,而Sora仍在不斷地進行改進。
除了選擇分辨率外,Sora還允許用戶選擇畫面比例,如縱向、橫向(或正方形)。這在從Sonny的牛仔褲向上掃到他的氣球頭的鏡頭中派上了用場。不幸的是,Sora原生不支持這樣的動作,它總是希望鏡頭的主焦點——氣球人——始終處于畫面中。因此,團隊選擇了縱向模式進行渲染,然后在后期通過裁剪手動創建了向上掃描的效果。
Sora生成的鏡頭需要后期手動裁剪 圖片來源:fxguide
Sora 在理解和執行鏡頭運動指令方面,如“跟蹤”、“平移”、“傾斜”或“推進”等,其理解和執行能力尚待加強。盡管用戶可以輸入如“相機平移”的提示,但 Sora 并不總是能夠準確執行。
帕特里克提到,Sora在處理攝像機角度方面的處理似乎有些隨意。“OpenAI的研究人員并沒有真正像電影制作者那樣思考,更多的是在專注于圖像的生成,而對于能否真正接收到或理解攝影指令這個問題,他們似乎沒有太多考慮。”
但目前,幾乎所有視頻生成AI公司都面臨這個問題。Runway AI或許在提供描述攝影機動作的用戶界面方面最為先進,但Runway的渲染剪輯的質量和長度都不如Sora。
雖然所有圖像都是在Sora中生成的,但氣球仍需大量的后期處理。除了隔離氣球以便重新上色,有時氣球上會出現Sonny的臉,看似用馬克筆畫上的,這需要在AE(After Effects)中刪除。類似的其他瑕疵也常常需要移除。
Sora生成畫面 圖片來源:fxguide
后期處理畫面 圖片來源:fxguide
Shy Kids的方法類似于紀錄片的后期制作和剪輯方式,先積累大量的鏡頭,然后從這些材料中編織故事,而非嚴格按照劇本拍攝。雖然短片有劇本,但團隊仍需保持靈活并進行調整。“我們就是獲取大量的鏡頭,并嘗試以一種有趣的方式將其剪輯到旁白中,”帕特里克回憶道。對于最終進入電影的一分半鐘的鏡頭,帕特里克估計他們生成了“數百個生成片段,每個片段10到20秒”。他補充說:“我的數學不好,但我猜源材料到最終成片數量的比例,大概是300:1。”
在《氣球人》里,團隊并沒有將多個鏡頭合成在一起。例如,氣球在賽車上空漂浮的鏡頭都是在一個鏡頭中生成的。
有趣的是,許多《氣球人》的片段生成時,就像是慢動作拍攝的,盡管這并非提示中要求。這種情況發生的原因不明,因此許多片段不得不重新調整時間,使其看起來像是實時拍攝的。顯然,這比減慢快速運動更容易做到,但這確實也奇怪,可能是從訓練數據中推斷出來的。“我不知道為什么,但似乎許多片段的速度在50%到75%之間,”他補充說。“因此,我們需要相當多的時間調整,以防止整個項目感覺像是一個大型慢動作項目。”
Shy Kids在他們的提示詞中使用了“35毫米膠片”這一術語,發現這樣的提示能帶來較高一致性的畫面效果。“如果我們需要高對比度,我們可以輸入‘高對比度’、‘主光’,Sora通常會給我們接近所需的效果,”帕特里克說。“但我們仍然需要進行完整的色彩調整,并且我們進行了自己的數字電影外觀處理,我們在其中添加了顆粒和閃爍,以某種方式將一切融合在一起。”Sora目前沒有提供額外的通道選項,如遮罩或深度通道。
為了尊重作品的版權,OpenAI設定了一些規定和限制。舉例來說,如果你給Sora一個像是“在一個未來的飛船上,一名男子手握光劍走了過來。”這樣的提示,并期望生成類似《星球大戰》的場景,Sora會拒絕生成這樣的視頻。Shy Kids團隊在早期測試中,偶然遇到了這一問題。帕特里克回憶說,當他們最初坐下來測試Sora時,拍攝了一個角色背后的鏡頭,類似阿羅諾夫斯基式的跟隨鏡頭,他在Sora上輸入了“阿羅諾夫斯基式鏡頭”,但Sora為保護原作版權,拒絕了這個提示。
Sora是一個引人注目的“文生視頻”大模型項目。Shy Kids團隊僅用大約1.5至2周的時間,由3人組成的團隊制作了爆火短片《氣球人》。目前,該團隊已經在制作一個自我意識強烈,或許帶有諷刺意味的續集。“續集將從新聞角度出發,聚焦到氣球人Sonny,以及他對名聲的反應和隨后與世界的決裂,”帕特里克說。“我們還在探索新技術!”團隊希望在他們的實驗中更加技術化,將Sora元素與真實的實景拍攝進行AE合成,并使用Sora作為輔助的視覺效果工具。
Sora是一項非常新的技術,即使OpenAI已經為Sora勾勒出基本框架并展示了其應用,這些框架也尚未開放給早期測試者使用。Sora目前的形式似乎不太可能很快發布,但它在某種類型的隱式圖像生成方面已經有了顯著的進步。對于高端項目來說,可能還需要一段時間才能滿足導演要求的具體化程度。對于許多其它項目來說,它已經“足夠接近”,并能產生令人驚嘆的圖像?!稓馇蛉恕啡匀恍枰罅康木庉嫼腿藶橹笇В拍苤谱魈庍@個引人入勝且有趣的故事短片。帕特里克說,“我只是覺得人們必須將Sora作為他們流程的真實部分;然而,如果他們不想參與這樣的事情,那也沒關系。”
每日經濟新聞綜合公開資料
封面圖片來源:每日經濟新聞 資料圖
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP