<cite id="apcyb"></cite>

<dfn id="apcyb"><rp id="apcyb"></rp></dfn>

<cite id="apcyb"><noscript id="apcyb"><address id="apcyb"></address></noscript></cite>

<tt id="apcyb"></tt>

每日經濟新聞

每經網首頁丨
宏觀丨
金融丨
公司丨
視頻丨
券商丨
IPO丨
基金丨
汽車丨
房產丨
新文化丨
未來商業丨
文創通丨
城市丨
每經商學院

要聞

每經網首頁 > 要聞 > 正文

智能不夠、人工來湊？Sora首批使用者“揭秘”：爆火短片，3人耗時兩周，全靠人工后期

每日經濟新聞 2024-05-09 13:01:07

每經編輯黃勝每經實習編輯宋欣悅

2月15日，美國人工智能公司OpenAI發布了最新“文生視頻”大模型Sora，并附帶發布了由它生成的48段視頻，引發了整個市場的高度關注。Sora生成視頻的畫面逼真、連貫流暢，在視頻時長方面，也遠遠領先于其競爭對手，一度被視為吹向好萊塢的一場大風暴。

在Sora公布的作品中，一部名為《氣球人（Air Head）》的短片，因情節完整、敘事性強，引發廣泛討論。在國內外各大平臺上，網友們更是毫不吝嗇地夸贊這部作品，甚至有人譽之為“Sora史上最佳發布”。

然而，近日，《氣球人（Air Head）》制作團隊Shy Kids在接受在線媒體平臺Fxguide的采訪時，基于他們使用Sora的親身體驗，揭示了Sora在視頻生成方面的局限。

Shy Kids揭露，《氣球人》這部短片，是三人耗費近兩周才完成，后期工作量只增不減。

圖片來源：截圖于fxguide

用戶界面僅支持文本輸入

在Sora的用戶操作界面中，藝術家可以輸入文本，隨后ChatGPT會將這些文本轉化成更長的一段文字，從而觸發生成一段視頻。然而，Sora目前并沒有支持其他輸入方式，也沒有實現多模態功能。這是一個重要的短板，因為盡管Sora在同一鏡頭中的物體一致性處理得還不錯，但系統目前還無法確保第一個鏡頭中的內容與隨后的鏡頭完全匹配。也就是說，即便我們第二次輸入同樣的提示語，結果也可能不同。

帕特里克在Shy Kids制作團隊中，負責后期制作，他說：“我們能做的就是，在提示中盡可能對角色的服裝以及氣球的類型進行詳細地描述。”

Sora生成的每個獨立片段，就其所代表的技術而言，都是令人驚嘆的。然而，如何有效利用這些片段，取決于用戶對 Sora隱式或顯式鏡頭生成方式的理解。

例如，假設你讓Sora生成一個在廚房中的長跟蹤鏡頭，并確保畫面中的桌上有個香蕉，Sora 將依賴于其對“香蕉”這一概念的隱式理解來生成一個顯示香蕉的視頻。通過訓練數據，Sora學習了香蕉的隱含特性，如“黃色”、“彎曲”、“有深色末端”等，但它并未存有具體的香蕉圖像，也沒有一個“香蕉圖像庫”，它只有一個相對較小、用于壓縮存儲的“潛在空間”。在這個空間中，“香蕉”僅僅是一個抽象的概念。

這就意味著，每次生成的結果都是Sora對這個“潛在空間”的一種新的解讀，這就需要我們的提示盡可能精確地描述我們對這些隱式特征的理解。

靠后期制作，保持角色“Sonny”的一致性

Shy Kids團隊表示，在制作《氣球人》的過程中，很難確保實際黃色氣球人在每個鏡頭中保持一致，《氣球人》中場景，是通過多次后期剪輯來接近劇本的。即使團隊明確要求生成一個黃色氣球，但最后生成的氣球卻可能是其它顏色，有時，氣球上甚至會莫名出現一個臉部圖案。另外，因為很多氣球都帶有繩子，Sora自動將“氣球”和“繩子”關聯到了一起。在《氣球人》中，角色Sonny的襯衫前面總是垂著一條繩子，這些繩子都需要在后期制作中移除。

帶有臉部圖案的氣球人圖片來源：fxguide

視頻分辨率較低渲染時間長

雖說在《氣球人》的制作中，Shy Kids團隊使用的都是Sora所生成的畫面，但大多經過了調色和再處理。帕特里克解釋說，Sora最高可以支持720P的分辨率，1080P分辨率也已經推出，但渲染時間過長，為提高前期效率，團隊都是在較低分辨率下生成的《氣球人》的所有制作內容，后期再通過Topaz軟件去提高分辨率。

Sora所生成的視頻片段，能以不同的時間長度進行渲染，如3秒、5秒、10秒、20秒，最長可達一分鐘。渲染時間會根據一天中的時間和云服務的需求而有所變化。帕特里克回憶說：“通常情況下，每次渲染大約需要10到20分鐘。渲染的段落長度對實際渲染時間的影響并不太大。如果渲染的內容長度在3秒到20秒之間，實際所需的渲染時間通常都在10到20分鐘這個范圍內。”他解釋說：“我們之所以會這樣做，是因為，如果獲得了一段完整的20秒視頻，我們就有更大的機會進行剪輯操作，這也相應地增加了得到滿意成果的可能性。”

時間控制不精確焦點過于固定

盡管可以在時間線上對關鍵幀進行調整，但對于動作發生的確切時間點控制并不精確，結果具有一定的不確定性。帕特里克說，“這有點像摸黑射擊，就像老虎機一樣，不確定它是否能在此時實現這些效果。”當然，Shy Kids使用的是Sora的最早原型之一，而Sora仍在不斷地進行改進。

除了選擇分辨率外，Sora還允許用戶選擇畫面比例，如縱向、橫向（或正方形）。這在從Sonny的牛仔褲向上掃到他的氣球頭的鏡頭中派上了用場。不幸的是，Sora原生不支持這樣的動作，它總是希望鏡頭的主焦點——氣球人——始終處于畫面中。因此，團隊選擇了縱向模式進行渲染，然后在后期通過裁剪手動創建了向上掃描的效果。

Sora生成的鏡頭需要后期手動裁剪圖片來源：fxguide

難以理解和執行鏡頭運動指令

Sora 在理解和執行鏡頭運動指令方面，如“跟蹤”、“平移”、“傾斜”或“推進”等，其理解和執行能力尚待加強。盡管用戶可以輸入如“相機平移”的提示，但 Sora 并不總是能夠準確執行。

帕特里克提到，Sora在處理攝像機角度方面的處理似乎有些隨意。“OpenAI的研究人員并沒有真正像電影制作者那樣思考，更多的是在專注于圖像的生成，而對于能否真正接收到或理解攝影指令這個問題，他們似乎沒有太多考慮。”

但目前，幾乎所有視頻生成AI公司都面臨這個問題。Runway AI或許在提供描述攝影機動作的用戶界面方面最為先進，但Runway的渲染剪輯的質量和長度都不如Sora。

素材與成品比例300:1

雖然所有圖像都是在Sora中生成的，但氣球仍需大量的后期處理。除了隔離氣球以便重新上色，有時氣球上會出現Sonny的臉，看似用馬克筆畫上的，這需要在AE（After Effects）中刪除。類似的其他瑕疵也常常需要移除。

Sora生成畫面圖片來源：fxguide

后期處理畫面圖片來源：fxguide

Shy Kids的方法類似于紀錄片的后期制作和剪輯方式，先積累大量的鏡頭，然后從這些材料中編織故事，而非嚴格按照劇本拍攝。雖然短片有劇本，但團隊仍需保持靈活并進行調整。“我們就是獲取大量的鏡頭，并嘗試以一種有趣的方式將其剪輯到旁白中，”帕特里克回憶道。對于最終進入電影的一分半鐘的鏡頭，帕特里克估計他們生成了“數百個生成片段，每個片段10到20秒”。他補充說：“我的數學不好，但我猜源材料到最終成片數量的比例，大概是300:1。”

拍攝合成和重新定時

在《氣球人》里，團隊并沒有將多個鏡頭合成在一起。例如，氣球在賽車上空漂浮的鏡頭都是在一個鏡頭中生成的。

有趣的是，許多《氣球人》的片段生成時，就像是慢動作拍攝的，盡管這并非提示中要求。這種情況發生的原因不明，因此許多片段不得不重新調整時間，使其看起來像是實時拍攝的。顯然，這比減慢快速運動更容易做到，但這確實也奇怪，可能是從訓練數據中推斷出來的。“我不知道為什么，但似乎許多片段的速度在50%到75%之間，”他補充說。“因此，我們需要相當多的時間調整，以防止整個項目感覺像是一個大型慢動作項目。”

場景照明和色彩分級調整

Shy Kids在他們的提示詞中使用了“35毫米膠片”這一術語，發現這樣的提示能帶來較高一致性的畫面效果。“如果我們需要高對比度，我們可以輸入‘高對比度’、‘主光’，Sora通常會給我們接近所需的效果，”帕特里克說。“但我們仍然需要進行完整的色彩調整，并且我們進行了自己的數字電影外觀處理，我們在其中添加了顆粒和閃爍，以某種方式將一切融合在一起。”Sora目前沒有提供額外的通道選項，如遮罩或深度通道。

版權帶來的提示詞限制

為了尊重作品的版權，OpenAI設定了一些規定和限制。舉例來說，如果你給Sora一個像是“在一個未來的飛船上，一名男子手握光劍走了過來。”這樣的提示，并期望生成類似《星球大戰》的場景，Sora會拒絕生成這樣的視頻。Shy Kids團隊在早期測試中，偶然遇到了這一問題。帕特里克回憶說，當他們最初坐下來測試Sora時，拍攝了一個角色背后的鏡頭，類似阿羅諾夫斯基式的跟隨鏡頭，他在Sora上輸入了“阿羅諾夫斯基式鏡頭”，但Sora為保護原作版權，拒絕了這個提示。

總結

Sora是一個引人注目的“文生視頻”大模型項目。Shy Kids團隊僅用大約1.5至2周的時間，由3人組成的團隊制作了爆火短片《氣球人》。目前，該團隊已經在制作一個自我意識強烈，或許帶有諷刺意味的續集。“續集將從新聞角度出發，聚焦到氣球人Sonny，以及他對名聲的反應和隨后與世界的決裂，”帕特里克說。“我們還在探索新技術！”團隊希望在他們的實驗中更加技術化，將Sora元素與真實的實景拍攝進行AE合成，并使用Sora作為輔助的視覺效果工具。

Sora是一項非常新的技術，即使OpenAI已經為Sora勾勒出基本框架并展示了其應用，這些框架也尚未開放給早期測試者使用。Sora目前的形式似乎不太可能很快發布，但它在某種類型的隱式圖像生成方面已經有了顯著的進步。對于高端項目來說，可能還需要一段時間才能滿足導演要求的具體化程度。對于許多其它項目來說，它已經“足夠接近”，并能產生令人驚嘆的圖像?！稓馇蛉恕啡匀恍枰罅康木庉嫼腿藶橹笇В拍苤谱魈庍@個引人入勝且有趣的故事短片。帕特里克說，“我只是覺得人們必須將Sora作為他們流程的真實部分；然而，如果他們不想參與這樣的事情，那也沒關系。”

每日經濟新聞綜合公開資料

封面圖片來源：每日經濟新聞資料圖

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

Sora 鏡頭

上一篇文章

鋰電板塊大漲，錳礦漲價題材股漲停！多位選手火速報名入場！

返回每經網首頁

下一篇文章

行業ETF風向標丨鋰電行業迎重磅政策，10余只鋰電ETF半日漲超3%

相關文章

熱文精選

點擊排行

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

相關信息
關于我們
版權聲明

關注我們
辟謠專區

加入我們
招聘專頁

Copyright ? 2024 每日經濟新聞報社版權所有，未經許可不得轉載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網絡社會征信網

兒童色情信息舉報專區

成都市互聯網不良與違法信息舉報中心

四川省互聯網舉報中心

中國互聯網舉報中心

每日經濟新聞互聯網不良與違法信息舉報中心

互聯網新聞信息服務許可證：51120190017 網站備案號：蜀ICP備19004508號-3 川公網安備 51019002002026號

新聞職業道德監督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九

<cite id="apcyb"></cite>

<dfn id="apcyb"><rp id="apcyb"></rp></dfn>

<cite id="apcyb"><noscript id="apcyb"><address id="apcyb"></address></noscript></cite>

<tt id="apcyb"></tt>