2020年伊始,突如其來的疫情使以短視頻和直播為代表的網絡視頻產業再次成為關注焦點。
隨著AI、大數據、AR/VR技術的加持,在線視頻以其更加豐富互動形式、更加多樣的場景化模式以及更加貼近消費者的內容,給消費者帶來更加個性化、實時化、沉浸式的體驗。
Gartner 2020年重要戰略科技發展趨勢中提出了多重體驗(Multi Experience),即到2028年用戶體驗將在用戶感知和用戶交互兩個維度發生巨大的變化,人機會話平臺正在改變人與數字世界的交互方式,而虛擬現實(VR)、增強現實(AR)與混合現實(MR)正在影響著人們對數字與真實世界的感知。
目前多重體驗專注于多重互動技術的綜合運用,并向著結合增強現實,虛擬現實,混合現實,以及多渠道人機界面和感知技術的沉浸式體驗方向發展。事實佐證,AI創作的智能影像內容有望成為主流內容組合,其建立多種互動模式與用戶溝通的能力,將為傳遞更細致和豐富的信息提供更加多樣化的場景。
另一方面,視頻化表達已成為主流,而互動視頻這一新興方向得到足夠重視。事實上,這是AI視覺技術與用戶多重體驗相互校驗的一個應用場景——在視頻內容之上自動疊加互動文字、動畫、圖表、聲音等,根據不同興趣用戶可選劇情推進線,以獲得最佳的個人用戶互動體驗。
2018年底,Netflix推出的《黑鏡:潘達斯奈基》,制作方為觀眾安排了上百個互動點,以及312分鐘的視頻素材以及5個不同的結局,供觀眾自主選擇劇情走向和觀看不同的結局。可以說,在當時技術條件下Netflix將個性化互動體驗做到了極致。
迪士尼創新實驗室則推出了一套觀眾興趣捕獲系統,根據表情、注意力等指標來演算用戶對劇情的喜愛程度,以推動下一個劇情的演進,事實上,這是個性化視頻創作自動化流程。

互動視頻本質上是人與機器的交互以及人與內容的交互,在人與內容互動上,《黑鏡:潘達斯奈基》以及國內的《最后的搬山道人》等則代表了這種交互模式,需要制作方對視頻內容進行大量的素材定制,主流的方式是從生產角度入手,通過智能影像生產技術快速制作與劇情之匹配的短視頻,并于機器拍攝視頻相結合,形成互動劇情線。
在國內,智能影像技術提出者和深耕者影譜科技認為,互動視頻本質是人與機器的互動,提出未來互動視覺的三種主流技術發展方向,并在多業務場景得以校驗。
第一種,是根據需要在視頻幀內寫入合適內容以增強視頻內容,目前主要通過動態浮層技術實現,已經實現了大規模成熟運用,如去年兩會期間,央媒推出的、由影譜科技技術實施的“委員全息履職”節目,以及由影譜科技承擔的《幻樂之城》實時場景搭建任務。
第二種方式,是基于人的交互動作捕捉,通過視頻合成技術組合進入原有視頻內,主要應用在多場景理解及內容替換、體育直播等;如近期“Young視頻”播出線上訪談節目《云快訪》,借助影譜科技的視頻差異化提取技術,實現中國登山隊的“實景采訪”;去年,《大畫CBA》節目通過運用影譜科技智能視頻生產系統,使上傳圖片文字能夠自動生成視頻,減少人工后期編輯的復雜工作,有效解決低效率視頻生產方式、復雜內容審核機制等問題。
第三種則是數字人物主題的應用,例如源于日本的Vtuber,表現在與一對一或一對多的交互形式上,除了IP本身以外,技術也是制約虛擬主播發展的因素之一,這種虛擬直播對人工智能技術的要求非常高,要想實現良好的直播效果,就需要具有過硬的面部表情識別、3D人物/人臉重建、AR融合以及端推理引擎等技術,同時需要對應用場景的理解和行業積累。目前國內一些頭部企業如科大訊飛、影譜科技等提供了開放平臺針對直播產業的虛擬主播,以提供API接口等模式,幫助直播平臺或團隊做到以虛擬主持人的形象與用戶進行互動。

(歐洲的交互型視頻項目ACTION-TV)
影譜科技認為,隨著AI多模態識別分析技術越來越成熟,視頻內容實現更細顆粒(像素級)的結構化處理,動態浮層互動形式也變得更加豐富,互動的深度也進一步增加。同時,智能影像技術對于嵌入式互動視頻的制作帶來了更多的優勢,對于拓展性更強的浮層互動技術其在在應用上也有著更明顯的優勢,由此也帶來了AI自動掃描及視頻幀內置入、視頻內服務模式的蓬勃發展,有助于智能影像技術在多個商業場景中落地,并成為底層主流支撐技術之一。
隨著5G的普及將進一步推動人工智能、云計算、IoT和VR技術的綜合運用,不僅可以提升用戶多重互動體驗,通過智能影像技術還可以幫助內容運營平臺提高內容制作和變現效率。隨著互動視頻技術開放平臺的出現和發展,降低參與方的門檻可以使其更加專注在內容和創意本身,帶來更加個性化、場景化的多重互動體驗,催生應用的創新并帶動產業形態上更深刻的變革。