還記得電影《喜劇之王》中,周星馳百變表情的橋段嗎?星爺當時的表情變化,只能用嘆為觀止來形容。

同樣關于表情的作品,還有蒂姆·羅斯主演的美劇《Lie to me》。劇中,行為學專家保羅·艾克曼只需要通過你微小的表情與動作,就能看穿你是否正在撒謊。
在所有已知生物中,人類是唯一能夠通過表情來傳達情緒的物種。當然,可能有時候你會覺得你家的貓主子、狗大爺也會笑,但實際上并不,它們只是面部肌肉在運動而已。

對于非人類的生物來說,識別表情一直是一件很難的事情。不僅是狗,就連前幾天橫掃中韓棋壇的人工智能、阿爾法狗的小弟弟Master也做不到。
這就引引申出一個問題:為什么小電腦能夠干掉所有人類棋手,但卻不能看懂坐在對面的人類旗手的失落和沮喪呢?人類可是在幾千甚至上萬年前就擁有這種技能點了。
“愛笑的女孩子運氣不會太差。——by古龍”
科學家Donald Knuth曾說過,“人工智能已經(jīng)在幾乎所有需要思考的領域超過了人類,但是在那些人類和其它動物不需要思考就能完成的事情上,還差得很遠。”
PS:Donald Knuth也是個計算機 圈里的傳奇人物,其著作《計算機程序設計的藝術(shù)》的地位,大概就相當于計算機領域的《相對論》。
將Donald Knuth的話換個說法(此處引用Wait But Why文章The AI Revolution: The Road to Superintelligence):
造一個能算出十位數(shù)乘法的計算機——太簡單了
造一個能分辨出一個動物是貓還是狗的計算機——非常困難
造一個能戰(zhàn)勝世界象棋冠軍的電腦——早就成功了
造一個能夠讀懂六歲小朋友的圖片書中的文字,并且了解那些詞匯意思的電腦——谷歌花了幾十億美元在做,還沒做出來。
一些我們覺得困難的事情——微積分、金融市場策略、翻譯等,對于電腦來說都太簡單了
我們覺得容易的事情——視覺、動態(tài)、移動、直覺——對電腦來說太TM的難了。
這倒不是人類作弊,人類進化出這種“直覺”的時間大概有幾千萬年;而發(fā)明圍棋不過是4000年前的事。
這很好,在“不需要用腦”的前提下,人類還是大幅領先于機器的。
不過壞消息是,在一些直覺層面上,機器與人的距離可能正在不斷拉近。例如表情識別。

周六(1月14日)國航與百度合作了一個活動,搞出了兩架名為“微笑中國號”的航班,打著“帶著微笑回家過年”的旗號,讓乘客體驗了一下表情識別技術(shù)。
活動說來簡單:國航CA1415、CA1416航班上,空乘姐姐們?yōu)槌丝桶l(fā)放百度特制的搭載微笑互動裝置的iPad,乘客可以通過笑容來開啟、操作iPad上的應用。
經(jīng)肉身測試,微笑互動裝置確實能夠捕捉到人臉上的笑容,但這是在光線穩(wěn)定的前提下。
此處有一個小插曲:
漂亮的空乘姐姐將iPad拿給靠窗的我后,最初并不能通過笑臉來開啟應用進入游戲。在對著鏡頭傻笑了五分鐘后(此處請腦補喜劇之王中星爺?shù)谋砬榘⑿M度條依然停在原點。

空乘姐姐的笑和我的笑
空乘姐姐拿走iPad并用自己的笑臉測試了一下,微笑進度條開始前進……
……
……
兄弟!這就很尷尬了。我丑我承認,但特么機器也搞歧視嗎?

圖為程序界面
二次接過iPad后我反思了一下,看著自拍區(qū)域的臉上,有著明顯的光線痕跡,于是拉下了遮陽板/對準大臉/微笑——進度條開始挪動。此處需說明,只是淺笑,嘴角弧度并沒有上揚到夸張,板牙也踏踏實實的藏在嘴唇后面。
事后和百度人員溝通,百度方表示,由于飛機上不能聯(lián)網(wǎng),啟動前期也可能存在不能識別表情的狀況。(不過我還是傾向于是被光線干擾的原因,稍后解釋)
拋開小瑕疵不說,這次航班至少說明,精準的表情識別技術(shù)已不再遙不可及。
為什么要強調(diào)精準呢。因為所謂的笑臉識別在幾年前就被運用在相機中了。但受限條件很多,比如嘴角弧度小,或沒有露出牙齒,相機就很難完成拍攝。這是因為笑臉識別,基于系統(tǒng)中存儲的微笑和不笑時的模版對比(具體對比的是額頭、眉毛、眼睛、嘴巴、下顎等部位),如果二者差距極小(微笑),系統(tǒng)就不能判斷出你的笑容。
從這一點來看,百度對表情的捕捉更為細致。
從技術(shù)角度來看,實現(xiàn)表情識別更精準的主要原因是百度在人臉上捕捉了更多的關鍵點,并能夠有效將其關聯(lián)成表情網(wǎng)。資料顯示,百度的人臉識別技術(shù)對人臉型、眉毛、眼睛、鼻子等部位的72個關鍵點進行了檢測和跟蹤。

72個關鍵點的分布
這只是開始,之后面部識別系統(tǒng)會將這72個關鍵點連接成表情網(wǎng)(如圖)。每次關鍵點的聯(lián)動,都會反映在表情網(wǎng)上,之后再通過對比數(shù)據(jù)庫,判斷并輸出此時呈現(xiàn)的面部表情是否為笑容。
其中最大的難點,在于如何準確的捕捉到這72個關鍵點。而百度的解決方法是:

- 1.先識別并找到整個人臉

百度在FDDB(序號并非排名)
說起來容易,但實現(xiàn)難度不小。據(jù)全球最權(quán)威的人臉檢測評測平臺FDDB,百度人臉檢測的準確率在排名中一直屬于第一梯隊,還曾獲得過世界第一(哦小米也曾獲得過該平臺人臉識別組的第一,但相對于隔壁百度的人臉檢測組,人臉識別組的難度更低一些)。這大概是對該技術(shù)最權(quán)威的認可了吧。
但從失敗案例中能夠看出,百度表情識別的光線問題【可能】依然沒有完全克服。
眾所周知,人臉是3D的,但人臉圖像卻只是一個二維的投影。因此當光照程度不同時,會造成二維投影中人臉圖像的灰度分布不均勻,使局部對比的差別度擴大,從而影響到算法中對關鍵點的捕捉。

高空光線rio強
該癥結(jié)幾乎是所有面部識別技術(shù)的通病,美國軍方數(shù)據(jù)庫(FERET)和人臉識別供應商評測(FRVT)測試也表明光,照變化是實用人臉識別系統(tǒng)的最大瓶頸之一。同時,實驗和理論表明:同一個人在不同光照下得到的不同圖像間的差異,可能比不同的人在同一光照下的差異還要大(來自W. Zhao和R. Chellappa的文獻)。
所以,姑且算作技術(shù)上的小瑕疵吧。人類用了幾千萬年才演化出這些功能,要給小機器人一些時間。
其實不只是玩笑臉識別的百度,包括卡耐基梅隆大學機器人研究所、Louis-Philipe Morency等在內(nèi)的研究機構(gòu),都在15、16年期間推出了自己的表情識別系統(tǒng),并實現(xiàn)了落地。也因此,很多科技媒體都將16年視作“表情識別”的分水嶺。
雖然,目前表情識別的應用場景還不夠廣泛,但這是AI向感知人類情緒邁進的重要一步。畢竟語言、文字之外,人類還有表情、語氣、動作等諸多表達情緒的手段,只有感知到這些,人工智能才有機會真正的理解人類。
所以不要看不起你手機中那個不知道由誰開發(fā)的、不起眼的笑臉識別程序,那是人工智能的一大步。
