您現在的位置是:首頁 > 攝影首頁攝影
英偉達讓AI“演技”再上臺階:語音驅動照片說話,表情狠狠拿捏
圖片怎麼只裁剪不用的
Pine 發自 凹非寺
量子位 | 公眾號 QbitAI
輸入一段臺詞,讓照片“演戲”又進階了!
這次的AI直接讓“演技”整體上了一個臺階,表演生氣、開心、可憐……各種情緒都不在話下。
並且,口型、眼神、頭部動作也都讓這個AI狠狠拿捏住了!
甚至還能調節喜怒哀樂的程度。
這是英偉達最新推出的一款AI,名為
SPACEx
(此SPACEx非馬斯克的SpaceX)
,全稱是可控表達的語音驅動肖像動畫
(Speech-driven Portrait Animation with Controllable Expression)
。
其實,在英偉達推出SPACEx之前,已經有不少語音驅動照片的AI問世,那相較於之前那些AI,SPACEx有什麼優勢呢?
人臉動作更穩定,更注重細節
此前,最常使用的語音驅動照片的AI主要有三個:PC-AVS、MakeItTalk和Wav2Lip。
但這三個AI都或多或少有些缺陷之處,並且要麼只能對口型,要麼就只是整體面部控制的比較好,多個功能往往不能兼顧。
先來說說PC-AVS,它在對影象和語音進行處理時,會對輸入影象進行嚴格的剪裁,甚至還會改變姿勢,此外,生成的人臉動作很不穩定。
而MakeItTalk,在對口型方面效果不是很好,有時候生成的影片中還會出現空白的地方。
Wav2Lip的功能則比較單一,它主要是配音AI,只改變唇部的動作,唇部之外的面部表情毫無變化。
而這些問題,在SPACEx身上通通都被解決掉了,話不多說,直接看看它們之間的效果對比!
可以看出,無論是細節的口型、眼神,還是整體的面部動作,SPACEx都會更加自然一些。
而細分到各個具體的功能,SPACEx都集成了哪些功能呢?
下面這個表格給出了答案,情緒控制、標記面部landmark、頭部轉動和動作生成,SPACEx都能很好地兼顧,不會像以往的模型顧此失彼。
值得注意的是,SPACEx生成影片的質量也整體上升了一個臺階,以往同類型的AI最高只能達到384的解析度,而SPACEx這次已經達到了512X512。
兼顧這麼多功能還能生成高質量影片,SPACEx又是怎樣做到的呢?
具體原理
其中,很大一部分功勞是face-vid2vid貢獻的,它是英偉達兩年前公佈的一個AI演算法。
它不僅能壓縮影片的流量,還能保證影片的畫質。
並且,face-vid2vid還能讓影片中的人物隨意扭頭。
不過它要求輸入的是一個影片,而SPACEx則是一個圖片,它倆又是怎麼關聯到一起的?
這得從SPACEx生成影片的過程來看,主要分三個階段。
第一個階段可以概括為
Speech2Landmarks
,即從輸入的語音中來預測各個音節所對應的標準面部landmarks。
在預測的過程中,還會插入對應的情緒標籤。
預測好面部landmarks後,來到第二步:
Landmarks2Latents
,輸入各個影象的face-vid2vid關鍵點,以控制整個面部表情。
然後將這些關鍵點對應到上一步輸出的標準面部landmarks上。
最後一步便能透過face-vid2vid生成器來生成影片了。
話說回來,當然SPACEx也不是個全能選手,當輸入有較大的頭部旋轉時,現有的方法表現就不是很好了。
不過還是值得一試的,感興趣可以戳下文連結~
論文地址:
https://arxiv。org/pdf/2211。09809。pdf
參考連結:
https://deepimagination。cc/SPACEx/
— 完 —
量子位 QbitAI · 頭條號簽約