您現在的位置是：首頁 > 攝影首頁 攝影

英偉達讓AI“演技”再上臺階：語音驅動照片說話，表情狠狠拿捏

由量子位發表于攝影2023-01-16

SpaceX ai 影片面部 face

簡介值得注意的是，SPACEx生成影片的質量也整體上升了一個臺階，以往同類型的AI最高只能達到384的解析度，而SPACEx這次已經達到了512X512

圖片怎麼只裁剪不用的

Pine 發自凹非寺

量子位 | 公眾號 QbitAI

輸入一段臺詞，讓照片“演戲”又進階了！

這次的AI直接讓“演技”整體上了一個臺階，表演生氣、開心、可憐……各種情緒都不在話下。

並且，口型、眼神、頭部動作也都讓這個AI狠狠拿捏住了！

甚至還能調節喜怒哀樂的程度。

這是英偉達最新推出的一款AI，名為

SPACEx

（此SPACEx非馬斯克的SpaceX）

，全稱是可控表達的語音驅動肖像動畫

（Speech-driven Portrait Animation with Controllable Expression）

。

其實，在英偉達推出SPACEx之前，已經有不少語音驅動照片的AI問世，那相較於之前那些AI，SPACEx有什麼優勢呢？

人臉動作更穩定，更注重細節

此前，最常使用的語音驅動照片的AI主要有三個：PC-AVS、MakeItTalk和Wav2Lip。

但這三個AI都或多或少有些缺陷之處，並且要麼只能對口型，要麼就只是整體面部控制的比較好，多個功能往往不能兼顧。

先來說說PC-AVS，它在對影象和語音進行處理時，會對輸入影象進行嚴格的剪裁，甚至還會改變姿勢，此外，生成的人臉動作很不穩定。

而MakeItTalk，在對口型方面效果不是很好，有時候生成的影片中還會出現空白的地方。

Wav2Lip的功能則比較單一，它主要是配音AI，只改變唇部的動作，唇部之外的面部表情毫無變化。

而這些問題，在SPACEx身上通通都被解決掉了，話不多說，直接看看它們之間的效果對比！

可以看出，無論是細節的口型、眼神，還是整體的面部動作，SPACEx都會更加自然一些。

而細分到各個具體的功能，SPACEx都集成了哪些功能呢？

下面這個表格給出了答案，情緒控制、標記面部landmark、頭部轉動和動作生成，SPACEx都能很好地兼顧，不會像以往的模型顧此失彼。

值得注意的是，SPACEx生成影片的質量也整體上升了一個臺階，以往同類型的AI最高只能達到384的解析度，而SPACEx這次已經達到了512X512。

兼顧這麼多功能還能生成高質量影片，SPACEx又是怎樣做到的呢？

具體原理

其中，很大一部分功勞是face-vid2vid貢獻的，它是英偉達兩年前公佈的一個AI演算法。

它不僅能壓縮影片的流量，還能保證影片的畫質。

並且，face-vid2vid還能讓影片中的人物隨意扭頭。

不過它要求輸入的是一個影片，而SPACEx則是一個圖片，它倆又是怎麼關聯到一起的？

這得從SPACEx生成影片的過程來看，主要分三個階段。

第一個階段可以概括為

Speech2Landmarks

，即從輸入的語音中來預測各個音節所對應的標準面部landmarks。

在預測的過程中，還會插入對應的情緒標籤。

預測好面部landmarks後，來到第二步：

Landmarks2Latents

，輸入各個影象的face-vid2vid關鍵點，以控制整個面部表情。

然後將這些關鍵點對應到上一步輸出的標準面部landmarks上。

最後一步便能透過face-vid2vid生成器來生成影片了。

話說回來，當然SPACEx也不是個全能選手，當輸入有較大的頭部旋轉時，現有的方法表現就不是很好了。

不過還是值得一試的，感興趣可以戳下文連結～

論文地址：

https：//arxiv。org/pdf/2211。09809。pdf

參考連結：

https：//deepimagination。cc/SPACEx/

— 完 —

量子位 QbitAI · 頭條號簽約

上一篇：線下造節“年在萬達”，過年來萬達的N個理由！

下一篇：網站收錄量和索引量的區別在哪

您現在的位置是：首頁 > 攝影首頁 攝影

英偉達讓AI“演技”再上臺階：語音驅動照片說話，表情狠狠拿捏

相關文章

猜你喜歡