AIGC開放社區 2024-03-04 09:44:12
谷歌DeepMind的研究人員推出了,首個無需數據標記、無監督訓練的生成交互模型——Generative Interactive Environments,簡稱“Genie”。
Genie有110億參數,可以根據圖像、真實照片甚至草圖,就能生成各種可控制動作的視頻游戲。Genie之所以有如此神奇功能,主要使用了3萬小時,6800萬段的游戲視頻進行了大規模訓練。
并且在訓練過程中沒有使用任何真實動作標簽或其他特定提示,但Genie可以基于幀級別的,使用戶在生成的環境中進行各種動作控制非常強!
值得一提的是,Genie是一個通用基礎模型,也就是說其學到的潛在動作關系、序列、空間可以應用在其他領域中。
論文地址:https://arxiv.org/abs/2402.15391
項目地址:https://sites.google.com/view/genie-2024/home
Genie的核心架構用了ST-Transformer(時空變換器)。這是一種結合了Transformer模型的自注意力機制與時空數據的特性,以有效處理視頻、多傳感器時間序列、交通流量等時空數據。
ST-Transformer主要通過捕捉數據在時間和空間上的復雜依賴關系,提高了對時空序列的理解和預測能力,主要有3大模塊組成。
圖片將一張草圖,直接生成可控的小游戲
轉化展示
視頻分詞器
這是一個基于VQ-VAE的模塊,可將原始視頻幀壓縮成離散的記號表示,以降低維度并提高后續模塊的視頻生成質量。
這個過程類似自然語言處理中的分詞,將連續的視頻幀序列分解為離散的視頻片段。
視頻分詞器使用了ST-transformer來對視頻進行編碼,并生成對應的視頻標記。這些標記將作為后續動力學模型的輸入,用于預測下一幀視頻。
潛在動作模型
這是一個無監督學習模塊,可從原始視頻中推斷出觀察到的狀態變化對應的潛在動作。并根據這些潛在動作實現對每一幀的控制。潛在動作模型通過對視頻標記序列進行建模,學習到了不同幀之間的動作關系。
具體來說,潛在動作模型可以將一個視頻標記序列作為輸入,并生成對應的潛在動作序列。這些潛在動作序列可以用于控制生成環境中的每一幀,使用戶能夠在生成的交互環境中進行精確的操作。
動力學模型
主要基于潛在動作模型學習到的動作關系,根據潛在動作和過去的幀標記預測下一幀的視頻??梢园言撃K看作是一個預測模型,通過學習視頻序列的動態變化模式,能夠生成逼真的連續視頻。
動力學模型的輸入包括前一幀的圖像表示和當前幀的動作表示。為了將圖像表示和動作表示進行融合,Genie采用了一個基于Transformer架構的編碼器來對它們進行編碼。
在編碼器中,首先對前一幀的圖像進行編碼,并采用了一種視頻標記器的方法,將圖像分割成若干個離散的標記,每個標記代表圖像中的一個局部區域。這種分割可以幫助模型捕捉到圖像中的空間信息。
當前幀的動作表示也通過編碼器進行編碼。動作表示可以是離散的動作類別或連續的動作向量,具體的形式取決于具體的應用場景。
編碼器將動作表示轉換為一個固定長度的向量,以便與圖像表示進行融合。在獲得圖像表示和動作表示的編碼后,它們被輸入到動力學模型中進行預測。
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP