您現在的位置是:首頁 > 攝影首頁攝影

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

由 量子位 發表于 攝影2023-01-16
簡介值得注意的是,SPACEx生成影片的質量也整體上升了一個臺階,以往同類型的AI最高只能達到384的解析度,而SPACEx這次已經達到了512X512

圖片怎麼只裁剪不用的

Pine 發自 凹非寺

量子位 | 公眾號 QbitAI

輸入一段臺詞,讓照片“演戲”又進階了!

這次的AI直接讓“演技”整體上了一個臺階,表演生氣、開心、可憐……各種情緒都不在話下。

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

並且,口型、眼神、頭部動作也都讓這個AI狠狠拿捏住了!

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

甚至還能調節喜怒哀樂的程度。

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

這是英偉達最新推出的一款AI,名為

SPACEx

(此SPACEx非馬斯克的SpaceX)

,全稱是可控表達的語音驅動肖像動畫

(Speech-driven Portrait Animation with Controllable Expression)

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

其實,在英偉達推出SPACEx之前,已經有不少語音驅動照片的AI問世,那相較於之前那些AI,SPACEx有什麼優勢呢?

人臉動作更穩定,更注重細節

此前,最常使用的語音驅動照片的AI主要有三個:PC-AVS、MakeItTalk和Wav2Lip。

但這三個AI都或多或少有些缺陷之處,並且要麼只能對口型,要麼就只是整體面部控制的比較好,多個功能往往不能兼顧。

先來說說PC-AVS,它在對影象和語音進行處理時,會對輸入影象進行嚴格的剪裁,甚至還會改變姿勢,此外,生成的人臉動作很不穩定。

而MakeItTalk,在對口型方面效果不是很好,有時候生成的影片中還會出現空白的地方。

Wav2Lip的功能則比較單一,它主要是配音AI,只改變唇部的動作,唇部之外的面部表情毫無變化。

而這些問題,在SPACEx身上通通都被解決掉了,話不多說,直接看看它們之間的效果對比!

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

可以看出,無論是細節的口型、眼神,還是整體的面部動作,SPACEx都會更加自然一些。

而細分到各個具體的功能,SPACEx都集成了哪些功能呢?

下面這個表格給出了答案,情緒控制、標記面部landmark、頭部轉動和動作生成,SPACEx都能很好地兼顧,不會像以往的模型顧此失彼。

值得注意的是,SPACEx生成影片的質量也整體上升了一個臺階,以往同類型的AI最高只能達到384的解析度,而SPACEx這次已經達到了512X512。

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

兼顧這麼多功能還能生成高質量影片,SPACEx又是怎樣做到的呢?

具體原理

其中,很大一部分功勞是face-vid2vid貢獻的,它是英偉達兩年前公佈的一個AI演算法。

它不僅能壓縮影片的流量,還能保證影片的畫質。

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

並且,face-vid2vid還能讓影片中的人物隨意扭頭。

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

不過它要求輸入的是一個影片,而SPACEx則是一個圖片,它倆又是怎麼關聯到一起的?

這得從SPACEx生成影片的過程來看,主要分三個階段。

第一個階段可以概括為

Speech2Landmarks

,即從輸入的語音中來預測各個音節所對應的標準面部landmarks。

在預測的過程中,還會插入對應的情緒標籤。

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

預測好面部landmarks後,來到第二步:

Landmarks2Latents

,輸入各個影象的face-vid2vid關鍵點,以控制整個面部表情。

然後將這些關鍵點對應到上一步輸出的標準面部landmarks上。

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

最後一步便能透過face-vid2vid生成器來生成影片了。

英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏

話說回來,當然SPACEx也不是個全能選手,當輸入有較大的頭部旋轉時,現有的方法表現就不是很好了。

不過還是值得一試的,感興趣可以戳下文連結~

論文地址:

https://arxiv。org/pdf/2211。09809。pdf

參考連結:

https://deepimagination。cc/SPACEx/

— 完 —

量子位 QbitAI · 頭條號簽約