速途網訊 近日,2018 全國“視覺與學習青年學者研討會”(簡稱“VALSE 2018”)在大連舉行。
VALSE發起于2011年,是國內計算機視覺、圖像處理、模式識別與機器學習等研究領域的盛會,名稱是取意華爾茲的優雅與和諧,秉承自由、平等之學術精神,為青年學者和學生提供一個強互動的學術交流舞臺。本屆VALSE大會吸引了全民短視頻平臺快手、阿里人工智能實驗室、滴滴等多家科技公司與研究機構參與,展示交流這一領域前沿技術與產品的最新進展。

圖:快手多媒體內容理解團隊負責人在大會上做分享
大會上,快手科技展示了人臉識別、語音識別、三維人臉重建、視頻搜索,多媒體內容理解等一系列炫酷十足的應用,其中很多尖端技術已經在快手產品上進行了廣泛的應用??焓侄嗝襟w內容理解部(MultiMedia
Understanding,簡稱MMU)負責人李巖,介紹了快手在計算機視覺、圖像處理、模式識別與機器學習研究領域內的技術探索和人才積累。
快手CEO宿華曾指出,快手的公司愿景是實現每個人獨特的幸福感,希望每個人都能記錄自己的生活,希望每個人都有機會被世界看到,快手通過短視頻、圖片、直播的形式把人與人連接起來,幫助他們消除一點點孤獨感,增加一點點幸福感。這個愿景的實現正是靠著快手技術團隊的不懈努力,才得以一步步接近。
李巖進一步介紹說,要實現以上愿景,理解好每一段視頻是基礎??焓制脚_每天有海量的短視頻作品上傳,日播放量達到150億次,這些記錄生活的短視頻千姿百態、包羅萬象。如何分層有序的提取視頻信息,理解視頻內容,并且有效把這些內容分發到對它們感興趣的用戶,把人和內容精準對接,背后需要極其強大的計算能力和技術支持,這也是學術界和產業界共同的課題??焓忠呀浽谌斯ぶ悄堋⒋髷祿阮I域有了7年的積累。針對該問題,快手多媒體內容理解部利用AI技術,通過感知和推理兩個階段來解讀每一個視頻,先感知獲取視頻的客觀內容信息,進而推理獲取視頻的高層語義信息。
在感知階段,快手主要從四個維度來分析理解視頻內容:人臉、圖像、語音、音樂。人臉信息在社交視頻中占據重要地位,需要對視頻中的人臉進行檢測、跟蹤、識別,并分析出視頻中人物的年齡/性別等屬性,挖掘其中的3d形狀、表情等信息;在圖像維度,通過分類、物體檢測等算法分析場景、物體,通過圖像質量分析算法對圖像的主觀質量進行評估,通過OCR分析圖像中包含的文字信息等;在語音方面,不僅進行語音識別,而且進行說話人識別、情緒年齡等語音屬性信息分析;在音樂方面,進行音樂識別、歌聲/伴奏分離、歌聲美化打分等分析,對音樂信息進行結構化?;谏鲜鏊膫€維度,完成對視頻低級語義信息的感知。
在推理階段,基于感知階段的輸出,可以將視頻看做一個整體,進行分類、描述、檢索;
此外,像人把學到的知識存到大腦一樣,把快手的視頻內容整理并存儲到快手知識圖譜中,這樣融合感知內容和知識圖譜,使得理解視頻高層語義及情感成為可能。
據介紹,快手的多媒體智能分析團隊擁有近百名資深算法研究員和研發工程師,大部分研發人員具有多年BAT工作經歷,核心算法研究員具有十年的研發經驗。團隊成員絕大多數來自于清華大學,中科院,香港科技大學,南京大學,上海交通大學和日本京都大學等國內外頂尖高校。目前快手該部門仍在面向全社會和各大高校誠聘大量計算機視覺,語音識別,視頻內容理解,人臉識別&3D重建等相關領域的人才。
李巖最后向參會者發出誠摯邀請,歡迎志在多媒體理解領域做一些深入有影響力工作的同學加入快手,一起完成“實現每個人獨特幸福感”的美好使命。