表情編輯技術在特效和修圖場景有著廣泛的應用。此前,剪映、醒圖等app上的一鍵變笑臉模板一經上線就立刻成為出圈爆款;在抖音上,這一特效還引發了熱烈的話題討論,「笑得很好下次別笑了」一度登頂抖音話題熱榜。
近日, 在AI領域的頂級會議AAAI2023上,來自字節跳動智能創作團隊的3篇關于表情編輯GAN技術的論文入選,揭示了上述爆款特效背后的技術實現方法。據了解,AAAI2023共收到了 8,777 有效投稿,最終接受了 1,721 篇論文,總體接受率19.6% 。

ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing(https://arxiv.org/abs/2301.13402)
Semantic 3D-aware Portrait Synthesis and Manipulation Based on Compositional Neural Radiance Field(https://arxiv.org/abs/2302.01579)
CFFT-GAN: Cross-domain Feature Fusion Transformer for Exemplar-based Image Translation
(https://arxiv.org/abs/2302.01608)
“一鍵變笑臉”背后的技術方案:
第一階段,團隊利用預訓練的3D人臉重建模型,提取3DMM表情系數并注入到StyleGAN的w空間。同時,渲染出3D shape用作約束條件,訓練特定人臉表情的生成。第一階段訓練完成就可以生產大量的配對數據,訓練服務端或移動端的pix2pix模型,從而實現特定表情的編輯。

StyleGAN作為應用最廣泛的無條件 GAN 之一,能夠實現高保真圖像的生成,同時也便于在其隱空間內進行語義編輯。團隊借助StyleGAN自研了人像屬性編輯框架,可以輕易地實現如人像表情等屬性的編輯效果。詳細技術方案見:https://arxiv.org/abs/2109.10737

然而,基于StyleGAN生成的人臉(假圖)和真實人臉圖像還是有一定的差異,這體現在用假圖訓練好的pix2pix模型直接應用于自拍特效或者修圖場景會不可避免的產生一些bad case,因此需要借助StyleGAN反演能力,生產真實人臉的配對數據用于模型訓練。

過去,基于StyleGAN的重建和編輯存在trade-off問題,即提升真實圖像的重建效果會影響屬性的編輯效果。先前的方法針對性地優化了StyleGAN的重建和編輯任務,但沒能從原理上解決上述問題。團隊提出了ReGANIE,通過二階段修復重建的誤差的方法,在不影響StyleGAN本身編輯能力的同時,大幅地提升了圖像重建的效果,從根本上解決了這個trade-off問題。
因此,團隊利用ReGANIE和StyleGAN編輯模型可以生產真實人像的表情配對數據,還實驗了如卡通肖像,動物肖像等場景擴展。

另外,團隊探索了將神經輻射場(Nerf)技術和StyleGAN技術進行結合,結合人像分割能力提出了3D一致性的肖像合成與編輯技術Semantic3D,實現了肖像數據的姿態和局部可控性。
它借由視角v的輸入可以靈活生成不同姿態的肖像圖,從而可以擴充訓練數據的姿態多樣性。同時,基于組合式生成的思想,讓StyleGAN的隱空間操縱聚焦于期待編輯的屬性,如只編輯面部區域表情而不改變頭發或背景。

據團隊介紹,未來,基于GAN等生成技術對人像表情進行編輯將主要應用于短視頻特效、修圖拍攝和內容生成等應用場景。目前,相關功能可在抖音,剪影,醒圖等APP體驗,企業用戶可登陸火山引擎官網(https://www.volcengine.com/product/emotion-edit)使用表情編輯服務。
智能創作團隊是字節跳動AI&多媒體技術中臺,通過建設領先的計算機視覺、音視頻編輯、特效處理等技術,支持抖音、剪映、頭條等公司內眾多產品線;同時通過火山引擎為外部ToB合作伙伴提供業界前沿的智能創作能力與行業解決方案。