有這樣一個模型它可以做到一句話生成視頻
有這樣一個模型,它可以做到一句話生成視頻:

不僅零樣本就能搞定,性能還直達(dá) SOTA。
它的名字,叫NüWA。
女媧女媧,神通廣大,正如其名,一句話生成視頻只是這個模型的技能之一。
目前,在推特上已小有熱度。
八項(xiàng)全能女媧,單拎出來也不差
所以這個全能型選手究竟表現(xiàn)如何。
直接與 SOTA 模型對比,來看看她在各項(xiàng)任務(wù)上的表現(xiàn)。
在文本生成圖像中,不得不說,即使女媧的 FID—0 得分不及 XMC—GAN,但在實(shí)際效果中,女媧生成的圖肉眼可見的更好,清晰又逼真。
在視頻預(yù)測中,所有模型使用 64x64 的分辨率,Cond.代表供預(yù)測的幀數(shù)。
盡管只有 1 幀,女媧也將 FVD 得分從 94±2 降到 86.9。
草圖轉(zhuǎn)圖像時,與 SOTA 模型相比,女媧生成的卡車都更逼真。
而在零樣本的圖像補(bǔ)全任務(wù)中,女媧擁有更豐富的想象力。
并且,它的另一個優(yōu)勢是推理速度,幾乎 50 秒就可以生成一個圖像,而 Paint By Word 在推理過程中需要額外的訓(xùn)練,大約需要 300 秒才能收斂。
直接上效果:
看,像上面這些僅用色塊勾勒輪廓的視頻草圖,經(jīng)女媧之手就能生成相應(yīng)視頻。
而輸入一段潛水視頻,女媧也能在文本指導(dǎo)下讓潛水員浮出水面,繼續(xù)下潛,甚至游到天上。
可以說,女媧不僅技能多,哪個單項(xiàng)拿出來也完全不賴。
如何實(shí)現(xiàn)。
這樣一個無論操作對象是圖像還是視頻,無論是合成新的,還是在已有素材上改造都能做到做好的女媧,是如何被打造出來的呢。
其實(shí)不難,把文字,圖像,視頻分別看做一維,二維,三維數(shù)據(jù),分別對應(yīng) 3 個以它們?yōu)檩斎氲木幋a器。
另外預(yù)訓(xùn)練好一個處理圖像與視頻數(shù)據(jù)的 3D 解碼器。
兩者配合就獲得了以上各種能力。
而編碼解碼器都是基于一個 3D Nearby 的自注意力機(jī)制建立的,該機(jī)制可以同時考慮空間和時間軸的上局部特性,定義如下:
W 表示可學(xué)習(xí)的權(quán)重,X 和 C 分別代表文本,圖像,視頻數(shù)據(jù)的 3D 表示:
其中,h 和 w 表示空間軸上的 token 數(shù),s 表時間軸上的 token 數(shù),d 表示每個 token 的維數(shù)。
如果 C=X,3DNA 表示對目標(biāo) X 的自注意,如果 C≠X,3DNA 表示對在條件 C 下目標(biāo) X 的交叉注意。
該機(jī)制不僅可以降低模型的計算復(fù)雜度,還能提高生成結(jié)果的質(zhì)量。
此外,模型還使用 VQ—GAN 替代 VQ—VAE 進(jìn)行視覺 tokenization,這也讓生成效果好上加好。
團(tuán)隊(duì)介紹
一作 Chenfei Wu,北京郵電大學(xué)博士畢業(yè),現(xiàn)工作于微軟亞研院共同一作 Jian Liang,來自北京大學(xué)
。聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問,請與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
最新文章
熱門文章
- 2014年被時代新材并購進(jìn)來近幾年的業(yè)績
- 科技領(lǐng)域越來越多新的大企業(yè)集團(tuán)正在涌現(xiàn)
- 請問是否影響或波及到中矩高新正常經(jīng)營
- 公司在2022年如何看鈦產(chǎn)業(yè)發(fā)展其他產(chǎn)品
- 這種奇異的量子效應(yīng)被稱為泡利阻塞這項(xiàng)研究
- 穩(wěn)健的業(yè)績增長離不開小贏科技對合規(guī)發(fā)展進(jìn)
- 木林森:三項(xiàng)產(chǎn)品斬獲“南山獎”火雷子三項(xiàng)
- 恒指收跌1.20%生物醫(yī)藥跌幅居前
- 由中國電力企業(yè)聯(lián)合會編制的《中國電氣化年
- OPPO智能電視R1樂享版預(yù)熱:HDR1