天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

時代焦點(diǎn)網(wǎng) - 專業(yè)財經(jīng)新聞門戶
當(dāng)前位置: 時代焦點(diǎn)網(wǎng) -> 財經(jīng)

有這樣一個模型它可以做到一句話生成視頻

發(fā)布時間:2021-11-28 16:46   來源:IT之家   閱讀量:6979   

有這樣一個模型,它可以做到一句話生成視頻:

有這樣一個模型它可以做到一句話生成視頻

不僅零樣本就能搞定,性能還直達(dá) SOTA。

它的名字,叫NüWA。

女媧女媧,神通廣大,正如其名,一句話生成視頻只是這個模型的技能之一。

目前,在推特上已小有熱度。

八項(xiàng)全能女媧,單拎出來也不差

所以這個全能型選手究竟表現(xiàn)如何。

直接與 SOTA 模型對比,來看看她在各項(xiàng)任務(wù)上的表現(xiàn)。

在文本生成圖像中,不得不說,即使女媧的 FID—0 得分不及 XMC—GAN,但在實(shí)際效果中,女媧生成的圖肉眼可見的更好,清晰又逼真。

在視頻預(yù)測中,所有模型使用 64x64 的分辨率,Cond.代表供預(yù)測的幀數(shù)。

盡管只有 1 幀,女媧也將 FVD 得分從 94±2 降到 86.9。

草圖轉(zhuǎn)圖像時,與 SOTA 模型相比,女媧生成的卡車都更逼真。

而在零樣本的圖像補(bǔ)全任務(wù)中,女媧擁有更豐富的想象力。

并且,它的另一個優(yōu)勢是推理速度,幾乎 50 秒就可以生成一個圖像,而 Paint By Word 在推理過程中需要額外的訓(xùn)練,大約需要 300 秒才能收斂。

直接上效果:

看,像上面這些僅用色塊勾勒輪廓的視頻草圖,經(jīng)女媧之手就能生成相應(yīng)視頻。

而輸入一段潛水視頻,女媧也能在文本指導(dǎo)下讓潛水員浮出水面,繼續(xù)下潛,甚至游到天上。

可以說,女媧不僅技能多,哪個單項(xiàng)拿出來也完全不賴。

如何實(shí)現(xiàn)。

這樣一個無論操作對象是圖像還是視頻,無論是合成新的,還是在已有素材上改造都能做到做好的女媧,是如何被打造出來的呢。

其實(shí)不難,把文字,圖像,視頻分別看做一維,二維,三維數(shù)據(jù),分別對應(yīng) 3 個以它們?yōu)檩斎氲木幋a器。

另外預(yù)訓(xùn)練好一個處理圖像與視頻數(shù)據(jù)的 3D 解碼器。

兩者配合就獲得了以上各種能力。

而編碼解碼器都是基于一個 3D Nearby 的自注意力機(jī)制建立的,該機(jī)制可以同時考慮空間和時間軸的上局部特性,定義如下:

W 表示可學(xué)習(xí)的權(quán)重,X 和 C 分別代表文本,圖像,視頻數(shù)據(jù)的 3D 表示:

其中,h 和 w 表示空間軸上的 token 數(shù),s 表時間軸上的 token 數(shù),d 表示每個 token 的維數(shù)。

如果 C=X,3DNA 表示對目標(biāo) X 的自注意,如果 C≠X,3DNA 表示對在條件 C 下目標(biāo) X 的交叉注意。

該機(jī)制不僅可以降低模型的計算復(fù)雜度,還能提高生成結(jié)果的質(zhì)量。

此外,模型還使用 VQ—GAN 替代 VQ—VAE 進(jìn)行視覺 tokenization,這也讓生成效果好上加好。

團(tuán)隊(duì)介紹

一作 Chenfei Wu,北京郵電大學(xué)博士畢業(yè),現(xiàn)工作于微軟亞研院共同一作 Jian Liang,來自北京大學(xué)

聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問,請與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。