您現在的位置是:首頁 > 攝影首頁攝影
英偉達超快StyleGAN迴歸,快擴散模型30多倍,網友:GAN只剩快了
什麼叫擴散作用
蕭簫 發自 凹非寺
量子位 | 公眾號 QbitAI
擴散模型的影象生成統治地位,終於要被GAN奪回了?
就在大夥兒喜迎新年之際,英偉達一群科學家悄悄給StyleGAN系列做了個升級,變出個PLUS版的
StyleGAN-T
,一下子在網上火了。
無論是在星雲爆炸中生成一隻柯基:
還是基於虛幻引擎風格渲染的森林:
都只需要
接近0.1秒
就能生成!
同等算力下,擴散模型中的Stable Diffusion生成一張圖片需要
3秒鐘
,Imagen甚至需要
接近10秒
。
不少網友的第一反應是:
GAN,一個我太久沒聽到的名字了。
很快谷歌大腦研究科學家、DreamFusion第一作者Ben Poole趕來圍觀,並將StyleGAN-T與擴散模型做了個對比:
在低質量影象
(64×64)
生成方面,StyleGAN-T要比擴散模型做得更好。
但他同時也表示,在256×256影象生成上,還是擴散模型的天下。
所以,新版StyleGAN生成質量究竟如何,它又究竟是在哪些領域重新具備競爭力的?
StyleGAN-T長啥樣?
相比擴散模型和自迴歸模型多次迭代生成樣本,GAN最大的優勢是
速度
。
因此,StyleGAN-T這次也將重心放在了大規模文字影象合成上,即如何在短時間內由文字生成大量影象。
StyleGAN-T基於StyleGAN-XL改進而來。
StyleGAN-XL的引數量是StyleGAN3的3倍,基於ImageNet訓練,能生成1024×1024高解析度的影象,並借鑑了StyleGAN2和StyleGAN3的部分架構設計。
它的整體架構如下:
具體到細節上,作者們對生成器、判別器和文字對齊權衡機制進行了
重新設計
,用FID對樣本質量進行量化評估,並採用CLIP來對文字進行對齊。
在生成器上,作者們放棄了StyleGAN3中能實現平移同變性
(equivariance)
的架構,轉而採用了StyleGAN2的部分設計,包括輸入空間噪聲以及跳層連線等,以提升細節隨機變化的多樣性。
在判別器上,作者們也重新進行了設計,採用自監督學習對ViT-S進行訓練。
隨後,作者採用了一種特殊的截斷
(truncation)
方法來控制影象生成的效果,同時權衡生成內容的多樣性。
只需要控制引數ψ,就能在確保CLIP分數
(用於評估影象生成效果)
變動不大的情況下,改善生成影象的風格多樣性。
隨後,作者們用64個英偉達A100訓練了4周,最終得到了這版StyleGAN-T。
那麼它的生成效果如何呢?
超快生成低解析度影象
作者們對當前最好的幾種GAN、擴散模型和自迴歸模型進行了評估。
在微軟的MS COCO資料集上,StyleGAN-T實現了64×64解析度下最高的FID。
(其中,FID是計算真實影象和生成影象特徵向量距離的評估用值,數值越低,表示生成的效果越接近真實影象)
但在更高的256×256解析度生成上,StyleGAN-T還是沒有比過擴散模型,只是在生成效果上比同樣用GAN的LAFITE要好上不少:
如果進一步將生成時間和FID分別作為縱軸和橫軸,放到同一張圖上來對比,還能更直觀地對比生成質量和速度。
可見StyleGAN-T能保持在
10FPS
的速度下生成256×256解析度影象,同時FID值逼近LDM和GLIDE等擴散模型:
而在文字生成影象功能上,作者們也從文字特徵、風格控制等方面對模型進行了測試。
在增加或改變特定的形容詞後,生成的影象確實符合描述:
即便是快速生成的影象,也能迅速控制風格,如“梵高風格的畫”or“動畫”等:
當然,偶爾也有失敗案例,最典型的就是生成帶字母要求的影象時,顯示不出正常字母來:
作者們正在努力整理程式碼,表示不久之後就會開源。
作者介紹
作者們均來自圖賓根大學和英偉達。
一作Axel Sauer,圖賓根大學博士生,此前在卡爾斯魯厄理工學院
(KIT)
獲得本碩學位。目前感興趣的研究方向是深度生成模型、神經網路架構和實證研究。
二作Tero Karras,英偉達傑出研究科學家,對英偉達RTX技術有重要貢獻,也是StyleGAN系列的主要作者,主要研究方向是計算機圖形學和實時渲染。
不過在這波GAN掀起的“文藝復興”浪潮下,也出現了“StyleGAN時代迎來終結”的聲音。
有網友感慨:
在這之前,最新StyleGAN生成的影象總能讓我們大吃一驚,然而現在它給我們的印象只剩下“快”了。
你認為GAN還能撼動擴散模型的統治地位嗎?
論文地址:
https://arxiv。org/abs/2301。09515
專案地址:
https://github。com/autonomousvision/stylegan-t
— 完 —
量子位 QbitAI · 頭條號簽約