要聞

“即夢AI”上架，字節能否在視頻大模型上趕超快手？

每日經濟新聞 2024-08-12 22:37:52

◎通過對即夢、可靈以及Sora的實際應用對比，《每日經濟新聞》記者體驗發現，三款視頻生成大模型在對提示詞的捕捉和理解上都較為準確、完整，但即夢的人物塑造、內容的豐富度和視頻流暢度等能力相對有所欠缺。在生成內容的時長上，即夢支持最多12秒的視頻生成。

每經記者楊昕怡每經編輯魏官紅

“壓力給到了抖音剪映。”在今年6月以快手自研視頻生成大模型可靈為代表的現象級生成式AI（人工智能）產品涌現時，外界無一不在期待字節進一步的表現。

近日，字節跳動旗下剪映團隊研發的一站式AI創作平臺“即夢AI”移動版正式上架至蘋果App Store應用商店。

《每日經濟新聞》記者了解到，該應用目前擁有文生圖和文/圖生視頻等功能。另外，即夢已經上線會員體系，推出多個訂閱方式。

通過對即夢、可靈以及Sora的實際應用對比，《每日經濟新聞》記者體驗發現，三款視頻生成大模型在對提示詞的捕捉和理解上都較為準確、完整，但即夢的人物塑造、內容的豐富度和視頻流暢度等能力相對有所欠缺。在生成內容的時長上，即夢支持最多12秒的視頻生成。

“生成流暢視頻的秒數是判斷一個視頻生成大模型能力優劣的關鍵因素。”一位大模型工程師在接受《每日經濟新聞》記者采訪時表示，“‘流暢’需要從多個維度來看，比如生成的內容有沒有事實錯誤、記憶能力如何以及空間感對不對等。”

“即夢AI”移動版上架圖片來源：應用截圖

“即夢AI”上架，效果趕超可靈？

今年年初，Sora的橫空出世開啟了“視頻的ChatGPT時代”，隨后，快手推出的“黑馬”可靈讓人們對國產AI視頻大模型的表現有了越來越多的期待。同為短視頻巨頭的抖音母公司字節跳動，則被視為賽道內最具趕超可能性的選手之一。

可靈AI網頁端圖片來源：官網截圖

3月底，字節旗下剪映團隊研發的AI創作平臺“即夢AI”開放內測；5月9日，該應用上線網頁版，上線之初只有圖片生成、智能畫布和視頻生成三大功能，目前已上新故事創作功能；8月6日，該應用移動版正式上架至蘋果App Store應用商店，現擁有文生圖和文/圖生視頻等功能。

即夢AI網頁端圖片來源：官網截圖

至于即夢的實際使用效果，今年7月初，全國首部AIGC生成式連續性敘事科幻短劇集《三星堆：未來啟示錄》在抖音上線。在這部總共13集的短劇集里，即夢作為首席AI技術支持方，借助了包括AIGC劇本創作、概念及分鏡設計、圖像到視頻轉換、視頻編輯和媒體內容增強等10種AI技術。

據媒體報道，在和博納影業合作推出《三星堆：未來啟示錄》的過程中，即夢AI改進了“視頻生成”功能，包括支持24fps、30fps、60fps的補幀以及二倍超分的能力，新增鏡頭水平移動、上下移動，支持鏡頭移動的方向和幅度控制等。

圖片來源：剪映微信公眾號截圖

在即夢App上線后，《每日經濟新聞》記者選取了OpenAI官方公布的多條Sora視頻提示詞對即夢、可靈和Sora進行對比測試。

從記者的測試結果來看，三款視頻生成大模型在對提示詞的捕捉和理解上都較為準確、完整，生成視頻內容的畫面表現也都連貫且流暢。

但在人物形象的刻畫精細度上，Sora相較于即夢和可靈有一定的優勢；在動作的自然度上，即夢在三個測試產品中略遜一籌，例如在以“東京街頭的女士”為主題的視頻畫面呈現上，即夢生成的人物在轉頭時頭頸部略顯扭曲，拎包的手部動作也有所變形。

圖片來源：記者生成視頻截圖

而在生產內容的元素豐富程度上，Sora也在三者中表現更優。例如在以“太空人”為主題的生成視頻內容里，Sora給出了飛船、艙外景象等多個有關提示詞的聯想內容，而即夢和可靈僅呈現了一個穿著宇航服的男性角色。

圖片來源：記者生成視頻截圖

易觀分析研究合伙人陳晨在接受《每日經濟新聞》記者采訪時表示，在生成效果上，即夢的AI圖像的整體質量較好，AI視頻則在時長、元素豐富性、動作連貫性等細節處理上仍然有所欠缺。

“（元素內容不夠豐富）更多有關模型的對齊，不過如果缺失了從‘太空人’聯想到‘飛船’的能力，是基座模型的能力問題。”一位大模型工程師向《每日經濟新聞》記者指出，生成流暢視頻的秒數是判斷一個視頻生成大模型能力優劣的關鍵因素，“‘流暢’需要從多個維度來看，比如生成的內容有沒有事實錯誤、記憶能力如何以及空間感對不對等”。

《每日經濟新聞》記者通過試用發現，在輸入相同提示詞的情況下，要求生成的視頻越長，視頻主體形象和動作的精度、流暢程度很可能會相應受損。

目前，即夢支持3秒、6秒、9秒和12秒的視頻內容生成，分別對應不同的積分消耗。而Sora早在發布時就已經能合成1分鐘超長視頻；6月21日，可靈推出了圖生視頻功能，支持根據不同文本內容，將靜態圖像轉化為生動的5秒視頻，且續寫功能可讓視頻延續約5秒，最長可生成約3分鐘視頻。

AI視頻，會是大模型的掘金點嗎？

Sora的出現無疑給大模型開辟了一方新的賽場——今年7月，阿里達摩院發布了一站式AI視頻創作平臺“尋光”，商湯推出了首個面向C端用戶的可控人物視頻生成大模型Vimi，智譜也宣布將AI生成視頻模型清影（Ying）正式上線智譜清言??

在AI頭部玩家集體向視頻生成大模型發起猛攻時，一個不能回避的問題就在眼前：AI視頻能讓大模型公司賺到錢嗎？

以業內明星公司OpenAI為例，在推出了Sora等一眾能力領先的大模型的情況下，今年7月，有媒體援引知情人士以及未公開的內部財務數據分析稱，OpenAI今年或面臨高達50億美元的巨額虧損，預估公司全年收入預估可能在35億～45億美元，遠低于運營成本。

同時，國內視頻大模型在商業化落地上也顯得有些“著急”。7月30日，可靈上線了面向全球的會員體系，該體系與其在國內市場推出的會員體系相仿，例如月卡分為10美元、37美元和92美元三檔，可對應生成約66個、300個和800個5秒視頻。

《每日經濟新聞》記者注意到，即夢也已推出會員體系，有79元單月、69元連續包月和659元包年的基礎會員的不同訂閱方式。具體來說，基礎會員每月可使用505個積分生成約2020張圖片或168個AI視頻。此外，還有每月2020個積分的標準會員和每月6555個積分的高級會員服務即將上線。

“由于AI大模型高昂的模型訓練與推理成本，加之C端用戶對AI工具的需求相對分散，付費意愿不足，視頻大模型在C端市場的商業化仍然會面臨一個較長的培育期。”陳晨認為，對于C端市場而言，視頻大模型的商業化落地仍道阻且長。

而從B端市場出發，陳晨向《每日經濟新聞》記者表示，“對于B端而言，AI技術革命正在重塑原有的工作流程，壓縮冗余環節并引發新的創作工具需求。在這個過程中，AI視頻大模型可以逐步與現有的影視制作、廣告創意、媒體內容策劃結合，輔助進行復雜工序自動化處理和智能化內容生產。而模型能力是否有效嵌入實際工作流程，帶來實質性的效率提升、成本降低，是構建商業化能力的關鍵因素”。

“Kimi的商業化會逐步開始探索，但還不是目前的重點，目前的重點還是打造能力更強的下一代模型。”今年8月，月之暗面方面在接受《每日經濟新聞》記者采訪時曾表示，現階段還不是以商業化為重的時候。

也許，對“初出茅廬”的即夢來說也是如此，它還有一個又一個里程碑要去觸達、超越。“即夢目前的產品功能、商業模式聚焦于服務UGC（用戶生成內容），與抖音的生態融合也將是未來的發展重點。”陳晨表示，“或許在時長、幀率、畫面細節等技術參數上的直接對標并不是即夢現階段最需要關注的，關鍵還是在于應用落地和生態整合能力。”

封面圖片來源：視覺中國-VCG111299088149

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

視頻 Ai 快手

上一篇文章

瑞芯微董事黃旭減持4.2萬股，減持金額241.88萬元

返回每經網首頁

下一篇文章

迪威爾董事張利增持5.08萬股，增持金額59.49萬元