您現在的位置是：首頁 > 攝影首頁 攝影

英偉達超快StyleGAN迴歸，快擴散模型30多倍，網友：GAN只剩快了

由量子位發表于攝影2023-02-01

StyleGAN 生成影象模型 GAN

簡介可見StyleGAN-T能保持在10FPS的速度下生成256×256解析度影象，同時FID值逼近LDM和GLIDE等擴散模型：而在文字生成影象功能上，作者們也從文字特徵、風格控制等方面對模型進行了測試

什麼叫擴散作用

蕭簫發自凹非寺

量子位 | 公眾號 QbitAI

擴散模型的影象生成統治地位，終於要被GAN奪回了？

就在大夥兒喜迎新年之際，英偉達一群科學家悄悄給StyleGAN系列做了個升級，變出個PLUS版的

StyleGAN-T

，一下子在網上火了。

無論是在星雲爆炸中生成一隻柯基：

還是基於虛幻引擎風格渲染的森林：

都只需要

接近0.1秒

就能生成！

同等算力下，擴散模型中的Stable Diffusion生成一張圖片需要

3秒鐘

，Imagen甚至需要

接近10秒

。

不少網友的第一反應是：

GAN，一個我太久沒聽到的名字了。

很快谷歌大腦研究科學家、DreamFusion第一作者Ben Poole趕來圍觀，並將StyleGAN-T與擴散模型做了個對比：

在低質量影象

（64×64）

生成方面，StyleGAN-T要比擴散模型做得更好。

但他同時也表示，在256×256影象生成上，還是擴散模型的天下。

所以，新版StyleGAN生成質量究竟如何，它又究竟是在哪些領域重新具備競爭力的？

StyleGAN-T長啥樣？

相比擴散模型和自迴歸模型多次迭代生成樣本，GAN最大的優勢是

速度

。

因此，StyleGAN-T這次也將重心放在了大規模文字影象合成上，即如何在短時間內由文字生成大量影象。

StyleGAN-T基於StyleGAN-XL改進而來。

StyleGAN-XL的引數量是StyleGAN3的3倍，基於ImageNet訓練，能生成1024×1024高解析度的影象，並借鑑了StyleGAN2和StyleGAN3的部分架構設計。

它的整體架構如下：

具體到細節上，作者們對生成器、判別器和文字對齊權衡機制進行了

重新設計

，用FID對樣本質量進行量化評估，並採用CLIP來對文字進行對齊。

在生成器上，作者們放棄了StyleGAN3中能實現平移同變性

（equivariance）

的架構，轉而採用了StyleGAN2的部分設計，包括輸入空間噪聲以及跳層連線等，以提升細節隨機變化的多樣性。

在判別器上，作者們也重新進行了設計，採用自監督學習對ViT-S進行訓練。

隨後，作者採用了一種特殊的截斷

（truncation）

方法來控制影象生成的效果，同時權衡生成內容的多樣性。

只需要控制引數ψ，就能在確保CLIP分數

（用於評估影象生成效果）

變動不大的情況下，改善生成影象的風格多樣性。

隨後，作者們用64個英偉達A100訓練了4周，最終得到了這版StyleGAN-T。

那麼它的生成效果如何呢？

超快生成低解析度影象

作者們對當前最好的幾種GAN、擴散模型和自迴歸模型進行了評估。

在微軟的MS COCO資料集上，StyleGAN-T實現了64×64解析度下最高的FID。

（其中，FID是計算真實影象和生成影象特徵向量距離的評估用值，數值越低，表示生成的效果越接近真實影象）

但在更高的256×256解析度生成上，StyleGAN-T還是沒有比過擴散模型，只是在生成效果上比同樣用GAN的LAFITE要好上不少：

如果進一步將生成時間和FID分別作為縱軸和橫軸，放到同一張圖上來對比，還能更直觀地對比生成質量和速度。

可見StyleGAN-T能保持在

10FPS

的速度下生成256×256解析度影象，同時FID值逼近LDM和GLIDE等擴散模型：

而在文字生成影象功能上，作者們也從文字特徵、風格控制等方面對模型進行了測試。

在增加或改變特定的形容詞後，生成的影象確實符合描述：

即便是快速生成的影象，也能迅速控制風格，如“梵高風格的畫”or“動畫”等：

當然，偶爾也有失敗案例，最典型的就是生成帶字母要求的影象時，顯示不出正常字母來：

作者們正在努力整理程式碼，表示不久之後就會開源。

作者介紹

作者們均來自圖賓根大學和英偉達。

一作Axel Sauer，圖賓根大學博士生，此前在卡爾斯魯厄理工學院

（KIT）

獲得本碩學位。目前感興趣的研究方向是深度生成模型、神經網路架構和實證研究。

二作Tero Karras，英偉達傑出研究科學家，對英偉達RTX技術有重要貢獻，也是StyleGAN系列的主要作者，主要研究方向是計算機圖形學和實時渲染。

不過在這波GAN掀起的“文藝復興”浪潮下，也出現了“StyleGAN時代迎來終結”的聲音。

有網友感慨：

在這之前，最新StyleGAN生成的影象總能讓我們大吃一驚，然而現在它給我們的印象只剩下“快”了。

你認為GAN還能撼動擴散模型的統治地位嗎？

論文地址：

https：//arxiv。org/abs/2301。09515

專案地址：

https：//github。com/autonomousvision/stylegan-t

— 完 —

量子位 QbitAI · 頭條號簽約

上一篇：西部列強競爭激烈！榜首隨時易主，兩豪強墜落樂透區

下一篇：三星note8和note9區別

您現在的位置是：首頁 > 攝影首頁 攝影

英偉達超快StyleGAN迴歸，快擴散模型30多倍，網友：GAN只剩快了

相關文章

猜你喜歡