近日,在國際計算機視覺與模式識別會議 (CVPR 2023)上,首屆人物交互重建大賽(The First Rhobin Challenge at CVPR 2023)公布了比賽結果,網易互娛AI Lab打敗了來自全球的75支參賽隊伍,在單目人體重建賽道獲得了第一名的優異成績。網易互娛AI Lab已經將類似相關技術方案應用于自研的AIxPose視覺動捕工具鏈中,并幫助多個游戲工作室處理了上千分鐘的動畫資源。
據悉,CVPR 2023人物交互重建大賽由德國馬克斯·普朗克計算機科學研究所主辦,大賽主要關注從人物與物體近距離交互的單目RGB圖像中重建三維人體和物體,一共分為三個賽道,分別是:人體重建、物體姿態估計和人體-物體聯合重建,最終考量的是重建的精度和效果。單目人體重建技術一直是計算機視覺領域的重要課題之一,本次比賽的難度也是堪比“地獄”級別,不僅匯集了來自全球的頂尖學者參賽,其中包括中國科技大學、首爾國立大學、NIP3D等人工智能研究領域的國內外頂尖院校以及企業,競爭十分激烈;而且此次比賽提供的BEHAVE數據集包含真實環境中人與物體的交互,存在大量的物體(如桌椅等)遮擋人體的情況,因此如何利用時序信息恢復人體的合理形態,也是考驗技術效果的一大難題。
為了解決上述問題,網易互娛AI lab創新性地使用了一種可以從單目圖像中得到準確的三維人體姿態和外形的多階段框架,相比其他參賽隊伍,這種方案在重建人體后的四肢朝向與真值之間的角度誤差可以減少10%以上,可顯著提升重建后的人體關鍵點精度和準確度。整個人體重建流程可以分為三個部分:
- 網絡預測階段:團隊訓練了一個以ViTPose-Huge為主干的神經網絡,從圖像中預測二維人體關鍵點和初始的人體模型參數(即SMPL模型的姿態和外形參數)。為了獲得更好的泛化能力,該模型在3DPW和EFT等大規模數據集上進行了預訓練,并在BEHAVE數據集上進行了微調以適應特定任務。
- 優化修正階段:團隊利用迭代優化修正前一階段的初始參數估計,并采用了一系列策略以進一步提升精度。首先,通過重投影的方式監督原圖中的二維關鍵點而非裁剪后的圖像有助于減小相機透視效應帶來的誤差。其次,為了確保序列中人體外形的一致性,團隊還對同一外形人體對應的圖像序列同時優化外形參數。此外,他們還額外訓練了一個神經網絡預測足部和地面的接觸,通過接觸約束聯合優化人體模型參數和地平面,有效提升了精度。
- 模型集成階段:團隊使用了不同的人體關鍵點集作為監督信息,并通過插值的方式融合多個結果。實驗證明,這種融合可以取得比單個最優子模型更好的結果。

單目圖像和獲取的三維人體姿態對比
目前動捕技術在影視、游戲等多個領域都已很常見,除了光學或者慣性動捕,市面上還出現了許多輕量級的AI視頻動捕方案。然而,視頻動捕對于需要生成的角色動作素材要求較高,普遍要求人體動作清晰、正視攝像頭,否則重建效果會大打折扣甚至出現錯誤。而網易互娛AI Lab的根據本次大賽所使用的技術方案自研的AIxPose多目視頻動捕工具,則可以更好的解決上述問題。近年來,各大企業都在推出自己品牌的虛擬人形象,但虛擬角色需要海量的內容支撐,而高品質的內容制作周期長、成本高、門檻高。借助AIxPose視頻動捕工具,用戶僅需提供一段簡單的人物動作視頻,即可在短短幾分鐘內獲得人體的動作數據,相比傳統動作動畫制作流程能節省80%的制作時間和成本,用更低成本、高效率的方式來打造精品內容。
網易互娛AI lab成立于2017年,一直致力于游戲行業的AI落地場景研究,并且在AIGC內容產出方面,實驗室還擁有一系列完整工具,例如可以實現面部實時動捕的面捕工具、語音合成面部動畫工具、語音驅動角色動作、掃描面部生成3D模型等。未來,實驗室將繼續積極探索和推動AI技術在各個領域的應用和探索。