當(dāng)前位置：時代焦點(diǎn)網(wǎng) -> 財經(jīng)

有這樣一個模型它可以做到一句話生成視頻

發(fā)布時間：2021-11-28 16:46 來源：IT之家閱讀量：6979

有這樣一個模型，它可以做到一句話生成視頻:

不僅零樣本就能搞定，性能還直達(dá) SOTA。

它的名字，叫NüWA。

女媧女媧，神通廣大，正如其名，一句話生成視頻只是這個模型的技能之一。

目前，在推特上已小有熱度。

八項(xiàng)全能女媧，單拎出來也不差

所以這個全能型選手究竟表現(xiàn)如何。

直接與 SOTA 模型對比，來看看她在各項(xiàng)任務(wù)上的表現(xiàn)。

在文本生成圖像中，不得不說，即使女媧的 FID—0 得分不及 XMC—GAN，但在實(shí)際效果中，女媧生成的圖肉眼可見的更好，清晰又逼真。

在視頻預(yù)測中，所有模型使用 64x64 的分辨率，Cond.代表供預(yù)測的幀數(shù)。

盡管只有 1 幀，女媧也將 FVD 得分從 94±2 降到 86.9。

草圖轉(zhuǎn)圖像時，與 SOTA 模型相比，女媧生成的卡車都更逼真。

而在零樣本的圖像補(bǔ)全任務(wù)中，女媧擁有更豐富的想象力。

并且，它的另一個優(yōu)勢是推理速度，幾乎 50 秒就可以生成一個圖像，而 Paint By Word 在推理過程中需要額外的訓(xùn)練，大約需要 300 秒才能收斂。

直接上效果:

看，像上面這些僅用色塊勾勒輪廓的視頻草圖，經(jīng)女媧之手就能生成相應(yīng)視頻。

而輸入一段潛水視頻，女媧也能在文本指導(dǎo)下讓潛水員浮出水面，繼續(xù)下潛，甚至游到天上。

可以說，女媧不僅技能多，哪個單項(xiàng)拿出來也完全不賴。

如何實(shí)現(xiàn)。

這樣一個無論操作對象是圖像還是視頻，無論是合成新的，還是在已有素材上改造都能做到做好的女媧，是如何被打造出來的呢。

其實(shí)不難，把文字，圖像，視頻分別看做一維，二維，三維數(shù)據(jù)，分別對應(yīng) 3 個以它們?yōu)檩斎氲木幋a器。

另外預(yù)訓(xùn)練好一個處理圖像與視頻數(shù)據(jù)的 3D 解碼器。

兩者配合就獲得了以上各種能力。

而編碼解碼器都是基于一個 3D Nearby 的自注意力機(jī)制建立的，該機(jī)制可以同時考慮空間和時間軸的上局部特性，定義如下:

W 表示可學(xué)習(xí)的權(quán)重，X 和 C 分別代表文本，圖像，視頻數(shù)據(jù)的 3D 表示:

其中，h 和 w 表示空間軸上的 token 數(shù)，s 表時間軸上的 token 數(shù)，d 表示每個 token 的維數(shù)。

如果 C=X，3DNA 表示對目標(biāo) X 的自注意，如果 C≠X，3DNA 表示對在條件 C 下目標(biāo) X 的交叉注意。

該機(jī)制不僅可以降低模型的計算復(fù)雜度，還能提高生成結(jié)果的質(zhì)量。

此外，模型還使用 VQ—GAN 替代 VQ—VAE 進(jìn)行視覺 tokenization，這也讓生成效果好上加好。

團(tuán)隊(duì)介紹

一作 Chenfei Wu，北京郵電大學(xué)博士畢業(yè)，現(xiàn)工作于微軟亞研院共同一作 Jian Liang，來自北京大學(xué)

。

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問，請與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm