<cite id="apcyb"></cite>
  1. <dfn id="apcyb"><rp id="apcyb"></rp></dfn>

  2. <cite id="apcyb"><noscript id="apcyb"><address id="apcyb"></address></noscript></cite>

    <tt id="apcyb"></tt>
    每日經濟新聞
    深讀100

    每經網首頁 > 深讀100 > 正文

    一張草圖直接生成視頻游戲,谷歌推出生成交互大模型

    AIGC開放社區 2024-03-04 09:44:12

    谷歌DeepMind的研究人員推出了,首個無需數據標記、無監督訓練的生成交互模型——Generative Interactive Environments,簡稱“Genie”。

    Genie有110億參數,可以根據圖像、真實照片甚至草圖,就能生成各種可控制動作的視頻游戲。Genie之所以有如此神奇功能,主要使用了3萬小時,6800萬段的游戲視頻進行了大規模訓練。

    并且在訓練過程中沒有使用任何真實動作標簽或其他特定提示,但Genie可以基于幀級別的,使用戶在生成的環境中進行各種動作控制非常強!

    值得一提的是,Genie是一個通用基礎模型,也就是說其學到的潛在動作關系、序列、空間可以應用在其他領域中。

    論文地址:https://arxiv.org/abs/2402.15391

    項目地址:https://sites.google.com/view/genie-2024/home

    Genie的核心架構用了ST-Transformer(時空變換器)。這是一種結合了Transformer模型的自注意力機制與時空數據的特性,以有效處理視頻、多傳感器時間序列、交通流量等時空數據。

    ST-Transformer主要通過捕捉數據在時間和空間上的復雜依賴關系,提高了對時空序列的理解和預測能力,主要有3大模塊組成。

    圖片將一張草圖,直接生成可控的小游戲

    轉化展示

    視頻分詞器

    這是一個基于VQ-VAE的模塊,可將原始視頻幀壓縮成離散的記號表示,以降低維度并提高后續模塊的視頻生成質量。

    這個過程類似自然語言處理中的分詞,將連續的視頻幀序列分解為離散的視頻片段。

    視頻分詞器使用了ST-transformer來對視頻進行編碼,并生成對應的視頻標記。這些標記將作為后續動力學模型的輸入,用于預測下一幀視頻。

    潛在動作模型

    這是一個無監督學習模塊,可從原始視頻中推斷出觀察到的狀態變化對應的潛在動作。并根據這些潛在動作實現對每一幀的控制。潛在動作模型通過對視頻標記序列進行建模,學習到了不同幀之間的動作關系。

    具體來說,潛在動作模型可以將一個視頻標記序列作為輸入,并生成對應的潛在動作序列。這些潛在動作序列可以用于控制生成環境中的每一幀,使用戶能夠在生成的交互環境中進行精確的操作。

    動力學模型

    主要基于潛在動作模型學習到的動作關系,根據潛在動作和過去的幀標記預測下一幀的視頻??梢园言撃K看作是一個預測模型,通過學習視頻序列的動態變化模式,能夠生成逼真的連續視頻。

    動力學模型的輸入包括前一幀的圖像表示和當前幀的動作表示。為了將圖像表示和動作表示進行融合,Genie采用了一個基于Transformer架構的編碼器來對它們進行編碼。

    在編碼器中,首先對前一幀的圖像進行編碼,并采用了一種視頻標記器的方法,將圖像分割成若干個離散的標記,每個標記代表圖像中的一個局部區域。這種分割可以幫助模型捕捉到圖像中的空間信息。

    當前幀的動作表示也通過編碼器進行編碼。動作表示可以是離散的動作類別或連續的動作向量,具體的形式取決于具體的應用場景。

    編碼器將動作表示轉換為一個固定長度的向量,以便與圖像表示進行融合。在獲得圖像表示和動作表示的編碼后,它們被輸入到動力學模型中進行預測。

    責編 胡玲

    特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

    視頻 模型 游戲

    歡迎關注每日經濟新聞APP

    每經經濟新聞官方APP

    0

    0

    国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九
    <cite id="apcyb"></cite>
    1. <dfn id="apcyb"><rp id="apcyb"></rp></dfn>

    2. <cite id="apcyb"><noscript id="apcyb"><address id="apcyb"></address></noscript></cite>

      <tt id="apcyb"></tt>