在國內,談到智能語音技術,肯定繞不開一個人,那就是現(xiàn)任百度語音首席架構師賈磊,他是智能語音界舉足輕重的AI大牛,于2010年加入百度,組建了百度語音團隊,主導研發(fā)了百度語音識別和語音合成等一系列百度自有知識產權的語音核心技術。2016年短暫創(chuàng)業(yè)后又回歸百度,主持研發(fā)了小度智能音箱的遠場語音交互系統(tǒng)、小度車載語音交互、百度鴻鵠語音芯片、百度智能語音呼叫中心系統(tǒng)等一系列百度語音類產品并將相關技術推向中國社會,他還于2015年獲得了全國勞模稱號(互聯(lián)網業(yè)首位全國勞動模范)。
作為 AI 落地的一個關鍵組成部分,智能語音交互技術這一路是如何發(fā)展起來并日趨成熟的?在2020魔幻的一年,智能語音技術的最新發(fā)展是什么?伴隨著5G、AI算力等技術的快速發(fā)展,未來智能語音技術又將在哪些方向進行突破和創(chuàng)新?本文將分為上下兩部分,結合賈磊的從業(yè)經歷,從個人側和技術側詳談智能語音技術的過去、現(xiàn)在和未來,肯定能讓你收獲頗多。另外,賈磊老師也將于2021年1月8-9日QCon北京站上帶來智能語音的更多精彩分享,歡迎大家現(xiàn)場面基,共同探討、交流。
(上)
作為最早關注智能語音的業(yè)界大咖之一,賈磊是在什么契機下選擇走上智能語音之路的?他對語音交互認知的本源是如何理解的?短暫創(chuàng)業(yè)經歷又給他帶來了哪些收獲?接下來,本文上篇將你深入認識一下賈磊,全面了解下大牛成長記。
興趣驅動,開啟近20年的智能語音技術追求之旅
賈磊選擇語音是興趣驅動的。賈磊碩士畢業(yè)后,考入中科院自動化所攻讀博士學學位。他最初的研發(fā)方向是圖像處理,廣泛涉獵了模式識別各學科方方面面的知識,也綜合比較了圖像、語音和NLP等學科的學科差異等。這時候逐漸開始對語音技術產生了濃厚的興趣,很好奇人是怎么發(fā)出聲音、感知聲音、并且理解聲音內容的。當時IBM的ViaVoice軟件也是風靡世界,人們依靠聲音來實現(xiàn)人機交互的夢想的實現(xiàn)就擺在眼前,語音產業(yè)化應用的明天一片大好。這時候正巧賈磊中科院自動化所的第一任導師因為工作調動問題,允許他們調換專業(yè),最終他根據(jù)個人興趣發(fā)展,申請從圖像處理方向轉到語音識別的技術方向上。從那時候開始,賈磊就開始了他近20年的語音技術追求之旅。
短暫創(chuàng)業(yè)讓賈磊明白了伙伴間的“可依賴”關系
賈磊曾在2016年有過一段短暫的創(chuàng)業(yè)經歷,談及創(chuàng)業(yè)帶給他的最大收獲,賈磊坦言,創(chuàng)業(yè)使他懂得了創(chuàng)業(yè)伙伴之間需要的是“可依賴”,而不是簡單的“可信賴”。大家因為信賴走到一起,“信賴”只是彼此結緣的開始。創(chuàng)業(yè)伙伴們之間需要維護的是一種可依賴關系,這種關系需要長期存在,是一個過程。創(chuàng)業(yè)過程中,經常舍死忘生,人力物力財力都有限,大家各自需要 120% 的投入解決眼前的問題。大家需要把后背交給對方,無條件的信任對方。大家背靠背的去戰(zhàn)斗,背靠背的一起拼。每個人都拼死守住自己前方的戰(zhàn)場,把自己的后背托付給一起創(chuàng)業(yè)的伙伴和兄弟。一個人敗了,其實也是大家都敗了,再說誰的責任已經毫無意義。創(chuàng)業(yè)會讓人更加認識到團隊協(xié)作的價值和團隊的作用。除了對創(chuàng)業(yè)伙伴之間的關系理解外,創(chuàng)業(yè)帶給賈磊最大的沖擊是對資本的敬畏。之前一直在大公司打工做技術,從來沒有意識到資本對于技術發(fā)展的可持續(xù)是如此的重要。經過創(chuàng)業(yè)之后,他深刻的理解到,技術要想有進步,不單單是技術人員的個人努力,更重要的是技術人員所屬平臺的持續(xù)長期投入。這些投入不單單是技術人員的工資、實驗以及各種研發(fā)要件的投入,更為具體的是技術應用場景的投入,后者的投入更為巨大。因此創(chuàng)業(yè)之后再回到百度,賈磊更加感恩,百度的長期不計回報的投入,才讓語音技術這個小草,在百度內能夠長成參天大樹。賈磊個人也從語音技術的普通專業(yè)技術人才,變成語音行業(yè)的技術領軍人物。
如何理解語音交互認知本源
創(chuàng)業(yè)回到百度后,賈磊從之前側重語音算法技術創(chuàng)新,變成算法創(chuàng)新和產業(yè)拓展兼顧。也許是認識到了資本對于技術的推動作用,賈磊要求團隊成員都要有成本意識和營收意識(當然技術團隊的營收都是概念上的,而不都是絕對實際的營業(yè)流水),都要具備業(yè)務整體推進能力,而不是單體算法創(chuàng)新。這也是他們投入做百度鴻鵠芯片的一個背景。講這些乍一聽,好像和人類認知沒有關系,但是真正的把技術應用到實際的應用過程,賈磊越來越發(fā)現(xiàn),人類的認知過程,不是一個簡單的學科劃分過程。不是說學語音的就只解決語音的認知,很多時候認知是視覺、聽覺、理解一體化的一個過程,比如任何人交流中的肢體語言,就對人的意圖理解起到舉足輕重的作用,再比如語義理解過程和語音識別過程,在具體的產業(yè)應用中,是密不可分的。學科劃分有邊界,但是人的認知本源可能是一體的。解決語音交互的問題,不能單單從語音技術出發(fā),要放在產業(yè)應用中,語音、圖像和NLP一體化的規(guī)劃和解決問題。
時間就像海綿里的水,努力擠才能平衡工作和家庭
賈磊曾在2015年榮獲全國勞模稱號(互聯(lián)網業(yè)首位全國勞動模范),可以想見工作強度非常大,關于怎樣平衡工作和家庭,他認為互聯(lián)網的工作強度都很大,互聯(lián)網工作的朋友們都犧牲了很多自己的生活休息時間。“我個人而言和從事互聯(lián)網行業(yè)的伙伴們一樣,都是全身心的投入工作,家庭生活感覺確實參與的少一些。陪孩子的時間也比較少,有時候工作忙了,早晨一大早出來,晚上很晚回去,回去后孩子也早就睡了。早晚兩頭都見不到孩子,非常想她。每次見到孩子沖著我笑的小臉,我都覺得很自責。如果不是很忙的話,我都盡量早晨早一點起來。陪她吃早飯,送她上學。上學路上,我會教她看紅綠燈、走斑馬線以及避讓綠燈時候右轉的車輛。之后,我趕緊開車奔向公司,正好能趕上大清早開始工作。我覺得時間就像海綿里面的水,只要你使勁擠,總是能擠出來的。不要錯過陪伴孩子長大的時間,他們長大的很快,一晃就不再需要我們的陪伴了。”
(下)
上篇我們聊到了賈磊老師與智能語音技術的情結,下篇我們將著重從技術側和你聊聊智能語音的過去、現(xiàn)在和未來,干貨滿滿。
智能語音行業(yè)發(fā)展歷程解析
IBM ViaVoice 時代的語音技術
語音行業(yè)在2000年左右,迎來了第一個產業(yè)高潮,也就是IBM的ViaVoice 語音錄入軟件。當時人們把這個軟件安裝到PC機器上,就可以在計算機前面朗讀報紙或者新聞內容,或者錄入一些簡單的日常用語,識別率也還不錯。于是工業(yè)界有了一次大規(guī)模連續(xù)語音識別的產業(yè)化應用的熱潮。當時,ViaVoice時代的語音技術還是以HMM建模和混合高斯系統(tǒng) (GMM) 為聲學建模核心的建模技術,語言模型采用的是基于 Ngram 的統(tǒng)計語言模型。因為 PC 上的內存限制,語言模型體積也只有幾十 M。另外,當時可以獲得的文本語料也是有限的,所以語言模型能覆蓋的內容范圍很小,當時主要集中在新聞報紙和日常用語領域。因為 HMM 系統(tǒng)和混合高斯系統(tǒng)建模能力有限,這時的連續(xù)語音聲學訓練語料庫也就只有數(shù)百小時。這個時候的語音識別系統(tǒng)對說話方式和口音的要求也很嚴格,說話方式必須是朗讀方式,口音也要求必須是標準普通話,否則,識別率迅速下降。很快的,人們發(fā)現(xiàn) ViaVoice 難以滿足人們在 PC 上把聲音轉成文字的產業(yè)需要。慢慢地,ViaVoice 的產業(yè)熱情就逐漸降溫了。

早期Windows上的ViaVoice軟件
在2003年賈磊畢業(yè)的時候,基本上人們對于語音輸入的產業(yè)期望已經很低了,各大公司都降低了語音技術的投入和預期。賈磊剛畢業(yè)就立刻迎來了語音技術的第一個低潮期,當時很多做語音專業(yè)的學生都轉換方向,不少人做語音也是選擇留校,而不是工業(yè)屆。當時國內各大公司比較多見的語音需求是手機上的數(shù)字和人名撥號系統(tǒng)、以及車載語音導航等嵌入式產品研發(fā),技術也大都集中在設備端側的單通道語音識別或者是語音合成。技術上講,這些應用都是嵌入式孤立詞語音識別系統(tǒng),其特點是只能識別特定的指令詞和句式。之后的幾年,除了零星的嵌入式設備應用外,語音技術在工業(yè)界的拓展乏陳可新,語音產業(yè)持續(xù)低迷。
語音技術的產業(yè)應用迎來第二波高潮
痛苦的日子總算沒有太長。在2007年,微軟公司收購語音識別技術企業(yè)Tellme Networks,并開始組建自己的語音團隊,語音技術的產業(yè)應用又重新回到大公司的關注熱點中。很快,谷歌于2008年在美國發(fā)布了英文語音搜索服務Voice Search,并應用于Android、諾基亞S60、黑莓、iPhone 等多個系列的手機。之后,谷歌又在 2009 年發(fā)布了中文語音搜索,語音的產業(yè)應用迎來了新一波高潮。這一波熱潮的核心特點是以互聯(lián)網需求和實現(xiàn)為基礎,此時模型處在云端,所以體積可以更大。例如語言模型,由于位于云端,語言模型體積可以達到上G,這是之前2000年左右的ViaVoice 語音系統(tǒng)所不可能達到的(2000年的比較好的PC計算機內存才256M,那是語言模型位于終端,也只有幾十M)。語言模型位于云端后,熱詞新詞的信息更新也更加及時,同時大的模型體積意味著對支持的語言領域更加廣泛。同時,技術上雖然聲學模型仍然是以 HMM 框架 GMM 建模為主體,但是可以采用更多更大的訓練語料。數(shù)千小時乃至上萬小時的聲學訓練語料庫已經開始進入工業(yè)界。因此從 2000 年到 2010 年左右的十年期間,雖然語音識別的核心算法技術仍然是 HMM、GMM 和 Ngram 統(tǒng)計語言模型,但是因為互聯(lián)網技術的引入,可以采用云端體積更大的聲學模型和語言模型,訓練這些模型的語料庫也顯著增加,最終導致語音交互的用戶體驗得到很大提升,語音技術的云端應用逐漸開始流行。

深度學習首次應用語音識別的系統(tǒng)框圖
2011年, 微軟的鄧力和俞棟兩位學者通力合作, 把深度學習技術應用于工業(yè)級的大詞匯量連續(xù)語音識別實驗, 獲得相對于傳統(tǒng)基線系統(tǒng) 23% 的顯著提升,這標志著語音識別技術最先迎來深度學習革命。深度學習應用于語音識別,最初的整體建模框架仍然是 HMM,但是聲學輸出分布 GMM 模型被替換成了深度學習 DNN 模型。這時候的語音識別系統(tǒng)是一種 HMM 和 DNN 混合 (hybrid) 的語音識別系統(tǒng)。隨著深度學習技術在語音技術中越來越深入的應用,從 DNN 到 CNN,再到 CNN+LSTM,語音識別系統(tǒng)的字錯誤率以每年 10%- 15% 的相對錯誤率降低。再后來伴隨著 CTC 技術的引入,更大粒度的建模單元(WordPiece 模型,音節(jié)和字)開始逐漸越來越多的被采用,應用于語音識別幾十年的 HMM 框架逐漸被淘汰。
語音識別技術進入端到端時代
從 2015 年開始到 2020 年這段時間,注意力建模技術的研究,又讓語音識別技術開始進入端到端的時代。2019 年之前,Attention(注意力) 技術早已經廣泛應用于 NLP、圖像等商業(yè)產品領域。但是語音識別領域,從 2015 年開始,實驗室內就廣泛進行了基于 Attention 的聲學建模技術,也獲得了廣泛的成功。國際上通常用于語音識別的注意力模型有兩種,一種是谷歌的以 LSTM 為基礎的 LAS(listening attention and spelling) 模型。另外一種是基于 self attention 的 transformer 模型。這兩種注意力模型在實驗室的各種實驗中,都能夠顯著提升語音識別系統(tǒng)的識別率,同時實現(xiàn)了一套深度學習模型,語音語言一體化的端到端建模。雖然注意力模型在實驗室范圍內獲得巨大成功,但是應用于工業(yè)界的實際在線語音交互產品,還存在一系列的技術障礙。核心難題就是在線需要識別系統(tǒng)需要流式解碼,而注意力模型需要拿到整段語音才能進行解碼,會造成用戶無法接受的識別延遲問題。所以注意力模型直到 2019 年初,都沒有在工業(yè)在線語音交互中使用注意力模型做語音識別的成功案例。2019年1月,百度發(fā)布率先發(fā)布了基于流式置信度建模技術的語音輸入法產品,首次提出流式多級截斷的注意力模型 (SMLTA),這是國際上注意力模型在在線語音識別領域的大規(guī)模工業(yè)應用的首個成功案例。之后,流式注意力模型在學術界也開始進入廣泛的研究。最近,語音識別應用中的逐漸集中到流式的 self-attention 建模,包括流式的 transformer 等。人類對于語音識別的核心技術提升的腳步從來沒有停止過。

基于注意力機制的語音識別端到端建模的通用框架
2015-2020年期間,智能音箱產業(yè)在中國乃至世界范圍內,都得到巨大的發(fā)展和普及。在智能音箱使用場景下,目標聲源距離拾音器較遠,致使目標信號衰減嚴重,加之環(huán)境嘈雜干擾信號眾多,最終導致信噪比較低,語音識別性能較差。為了提升遠場語音識別準確率,一般會使用麥克風陣列作為拾音器,然后利用數(shù)字信號處理領域的多通道語音信號處理技術,增強目標信號,最終產生一路清晰信號,送給后面的語音識別系統(tǒng)進行語音識別。這時候數(shù)字處理信號系統(tǒng)和語音識別系統(tǒng)相互級聯(lián)是主流的遠場語音識別技術,這種級聯(lián)技術也成為第一代智能音箱遠場語音交互技術的主流技術。隨后,語音學術界開始進行一系列的技術創(chuàng)新,從數(shù)字信號處理到語音識別一體化的端到端建模成為熱點。這是一種創(chuàng)新的遠場語音交互技術,一套深度學習模型打穿數(shù)字信號處理和語音識別兩個領域。國際上,Google 最先試圖解決這個問題。谷歌的解決方案采用的深度學習模型結構,來自于類似于 filtering and sum 的數(shù)字信號處理思想,模型底部的結構設計,模擬了數(shù)字信號處理的多路麥克處理過程。在此之上,模型仍然是采用傳統(tǒng)的近場語音識別的深度學習模型。該模型直接建立了從遠場語音多路信號到識別文字之間的端到端的進行。百度團隊針對遠場語音識別的特殊需求,也提出了自己的基于復數(shù) CNN 的遠場端到端建模方案,并大規(guī)模應用于工業(yè)產品。
語音技術從之前的云端競爭開始逐漸向端側芯片延伸
2020年左右的AI芯片的發(fā)展,也對語音交互行業(yè)產生了巨大的推動作用。在AI技術快速普及的今天,算力已經成為推動 AI 行業(yè)發(fā)展的根本核心力量。2011年微軟的科學家能夠把深度學習應用于語音識別工業(yè)界,除了科學家的勤奮工作之外,更重要的背后的推手是GPU。沒有 GPU 的算力支持,就不可能一個月完成數(shù)千小時的 DNN 模型訓練。從2011年至今,英偉達的股價已經從十幾美金,暴漲了幾十倍。這一點充分證明了 AI 算力的價值,在語音識別行業(yè),遠場識別的興起催生了 AI 語音芯片的發(fā)展。一顆芯片完成端側信號處理和喚醒成為一個明顯的市場需求。在智能音箱領域,這種 AI 語音芯片能夠顯著降低音箱的成本,并且提供更高精度的喚醒和識別能力。在汽車車載導航領域,AI 語音芯片可以保證主芯片的負載安全,提升駕駛安全。各大語音公司都開始推出自己的語音芯片,語音技術從之前的云端競爭又開始逐漸的向端側芯片延伸。
2020 年百度語音技術成果盤點
智能語音交互系統(tǒng)是人工智能產業(yè)鏈的關鍵環(huán)節(jié),面對未來智能語音產業(yè)鏈的新需求,百度研發(fā)了新一代適合大規(guī)模工業(yè)化部署的全新端到端語音交互系統(tǒng),實現(xiàn)了語音交互全鏈路協(xié)同處理,軟硬件一體優(yōu)化,信號語音一體化建模,語音語言一體建模,語音語義一體交互,語音圖像多模態(tài)融合,全深度學習的語音識別、語音喚醒以及千人千面?zhèn)€性化語音合成等,其中重大技術創(chuàng)新如下。
1. Attention(注意力) 技術早已經廣泛應用于 NLP、圖像等商業(yè)產品領域,但是語音識別領域,從 2015 年開始,實驗室內就廣泛進行了基于 Attention 的聲學建模技術,也獲得了廣泛的成功,但是在語音識別最廣泛使用的語音交互領域,Attention 機制一直沒辦法應用于工業(yè)產品。核心原因是語音識別的流式服務要求:語音必須分片傳輸?shù)椒掌魃希獯a過程也必須是分片解碼,用戶話音剛落,語音識別結果就要完成,這時候人的說話過程、語音分片上傳過程和語音識別的解碼過程三者都是并行的。這樣用戶話音一落,就可以拿到識別結果,用戶的絕對等待時間最短,用戶體驗最佳。傳統(tǒng)注意力建模技術必須拿到全局語音之后,才開始做注意力特征抽取,然后再解碼,這樣一來解碼器過程的耗時就不能和語音識別的解碼過程同步起來,用戶等待時間就會很長,不滿足語音交互的實時性要求。

SMLTA: 百度流式多級截斷注意力模型(2019 年 1 月發(fā)布)
2019 年 1 月,百度語音團隊提出了流式多級的截斷注意力模型 SMLTA。該方案采用 CTC 模型和 SMLTA 模型相結合的辦法,利用 CTC 的 peak 對連續(xù)語音流進行截斷,然后在截斷的語音流上做截斷的注意力模型。這是全世界范圍內,第一次基于 Attention(注意力技術) 的在線語音識別服務的大規(guī)模上線。該技術顯著提升了線上語音交互的語音識別的準確率,同時實現(xiàn)了語音語言的一體化建模,為云端語音識別技術的全面端側芯片化打下了基礎。2020 年,SMLTA 技術全面應用于百度語音識別全線產品:語音輸入法、語音搜索、地圖語音交互、智能音箱、汽車導航、智能呼叫中心、會議在線翻譯等產品上,都能看到 SMLTA 技術對語音交互性能的持續(xù)提升。
2. 近些年隨著 5G 的萬物互聯(lián)概念的普及,中國社會對智能設備的遠場語音交互需求日益增加。在遠場環(huán)境下,目標聲源距離拾音器較遠,致使目標信號衰減嚴重,加之環(huán)境嘈雜干擾信號眾多,最終導致信噪比較低,語音識別性能較差。為了提升遠場語音識別準確率,一般會使用麥克風陣列作為拾音器,然后利用數(shù)字信號處理領域的多通道語音信號處理技術,增強目標信號,最終產生一路清晰信號,送給后面的語音識別系統(tǒng)進行語音識別。這時候數(shù)字處理信號系統(tǒng)和語音識別系統(tǒng)是級聯(lián)方式,數(shù)字信號處理系統(tǒng)是以信號的清晰度為優(yōu)化目標,語音識別聲學建模是以云識別率為建模目標,兩個系統(tǒng)優(yōu)化目標不統(tǒng)一,錯誤也會級聯(lián)放大,最終的交互體驗相比于近場識別差很多。國際上,Google 試圖采用端到端建模技術解決這個問題,一套模型解決遠場麥克陣列信號處理和語音識別聲學建模問題。谷歌的解決方案采用的深度學習模型結構,借鑒了數(shù)字信號處理領域的類似于 filtering and sum 的數(shù)字信號處理思想,模型結構設計模擬經典數(shù)字信號處理過程。這種借鑒使得深度學習進行端到端建模更容易收斂,但是后期我們通過實驗證明,這種借鑒嚴重影響了深度學習技術在該方向上的發(fā)揮和延伸,限制了深度學習模型的模型結構的演變,制約了技術的創(chuàng)新和發(fā)展。

基于復數(shù) CNN 的語音增強和語音識別一體化的端到端建模
百度語音團隊研發(fā)出完全不依賴于任何先驗假設的信號、語音一體化的適合遠場語音交互的深度學習建模技術。該深度學習模型以復數(shù) CNN 為核心,利用復數(shù) CNN 網絡挖掘生理信號本質特征的特點,采用復數(shù) CNN、復數(shù)全連接層以及 CNN 等多層網絡,直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關聯(lián)耦合信息。在保留原始特征相位信息的前提下,同時實現(xiàn)了前端聲源定位、波束形成和增強特征提取。該模型底部 CNN 抽象出來的特征,直接送入百度獨有的端到端的流式多級的截斷注意力模型中,從而實現(xiàn)了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網絡的優(yōu)化準則完全依賴于語音識別網絡的優(yōu)化準則來做,完全以識別率提升為目標來做模型參數(shù)調優(yōu)。目前該方法已經被集成到百度最新發(fā)布的百度鴻鵠芯片中。


百度鴻鵠芯片結構圖
2020 年,百度在智能音箱、車載導航和智能電視控制方面,落地了百度鴻鵠語音芯片。研發(fā)了以遠場語音交互為核心的鴻鵠芯片解決方案,一顆芯片解決遠場陣列信號處理和語音喚醒的問題,打造了云端芯一體化的語音交互解決方案。百度鴻鵠語音芯片設計,變革傳統(tǒng)芯片設計方法,推出 AI 算法即軟件定義芯片的全新設計思路。百度鴻鵠芯片采用雙核 Hifi4 架構自定義指令集,2M 以上超大內存,臺積電 40nm 工藝,在此硬件規(guī)格上,100mw 左右平均工作功耗,即可同時支持遠場語音交互核心的陣列信號處理和語音喚醒能力,滿足車規(guī)可靠性標準。同時,百度鴻鵠芯片為遠場語音交互算法量身定制了芯片架構,完全契合 AI 算法需求的核內內存結構設計、分級的內存加載策略、依據(jù) AI 算法調教的 Cache 設計和靈活的雙核通信機制,最終實現(xiàn)了深度學習計算過程和數(shù)據(jù)加載的高度并行。百度鴻鵠芯片是中國行業(yè)內唯一一顆能夠承載全部遠場陣列信號處理和智能音箱喚醒技術的語音芯片,也已經完成了業(yè)內首個支持電視熄屏喚醒的 AI 芯片解決方案并實現(xiàn)工業(yè)產品落地。
百度鴻鵠芯片之后,賈磊團隊又將整個語音交互的復雜算法、邏輯和數(shù)據(jù)模型耦合的語音交互技術,利用百度全新研發(fā)的端到端語音建模技術,抽象成多個單純的深度學習計算過程,從而可以幾乎在性能無損的情況下將整個語音識別過程從云端搬到客戶端。基于以上思路的百度鴻鵠芯片二代也正在緊鑼密鼓的研發(fā)中,一顆芯片解決遠場語音識別和合成問題將不再遙遠。5G 時代的云端定義語音交互功能,端側執(zhí)行語音交互功能,云端一體的語音交互,很快會成為現(xiàn)實。

百度智能語音全景圖
在語音技術的產業(yè)化過程中,賈磊認為核心關鍵的要素是技術創(chuàng)新要把握產業(yè)需求,而不是閉門造車。比如百度的語音語言一體化的流式多級截斷的注意力建模技術 (SMLTA),核心就是針對性的解決注意力(Attention)建模技術不能進行流式識別的問題,后者是在線語音識別技術必須的關鍵要求。再比如百度研發(fā)鴻鵠芯片,核心就是解決一顆芯片集成遠場信號處理和遠場喚醒,從而提升智能音箱的遠場交互體驗,降低智能音箱的成本。“文以載道”,技術提升的首要目標是產品體驗提升,而非純粹的學術創(chuàng)新。管理上要集中優(yōu)勢兵力優(yōu)先解決技術工業(yè)應用時的痛點問題,要基于用戶感知體驗提升去迭代技術,而非單純的技術指標提升。
端到端語音交互的技術挑戰(zhàn)和難點
賈磊認為最大的挑戰(zhàn)是對跨學科端到端的模擬數(shù)據(jù)的生成和大規(guī)模工業(yè)訓練的深度學習訓練平臺的把握。端到端建模,目前越來越傾向于跨學科的端到端建模,這時候首先需要解決跨學科的數(shù)據(jù)模擬問題。每一個學科,都有一個學科假設的學科邊界。之前幾十年的研究成果,都是在學科邊界的假設范圍內進行的,所積累的各種訓練數(shù)據(jù),也是基于學科邊界假設的。一旦學科邊界被打破,每個學科的假設都不成立了,訓練數(shù)據(jù)往往需要重新積累。所以,通常需要用模擬的方法產生跨學科的端到端的訓練數(shù)據(jù)。如何模擬跨學科的場景數(shù)據(jù),是端到端建模的第一個難題。端到端建模的第二個難題,是如何應對數(shù)據(jù)倍增時候的深度學習訓練,這些問題,對通常的語音團隊,會成為一個很大的挑戰(zhàn)。比如在做信號和聲學一體化建模的時候,要在近場語音識別建模的訓練數(shù)據(jù)量上,疊加一個遠場信號的聲場模擬。這樣的話,模擬的數(shù)據(jù)量會有一個成倍的增加。考慮到大規(guī)模工業(yè)訓練的要求,上面提到的模擬數(shù)據(jù)的生成,還通常需要在 GPU 上進行。同時,數(shù)據(jù)成倍增加后,還要在 GPU 上進行高速有效的訓練。這里面對深度學習訓練平臺的把握是至關重要的,否則跨學科端到端建模時候的訓練數(shù)據(jù)模擬和訓練速度優(yōu)化中任何一個問題,都會是壓垮端到端建模的最后一根稻草。
解決上述問題的核心是要有對深度學習算法技術和工程技術都要有深刻的理解,對深度框架有全面的把握。有能力修改深度學習框架的內核,解決 GPU 上的訓練加速、內存優(yōu)化問題和算法調優(yōu)的問題。如果只是泛泛的理解國外開源框架的算法技術,只是跑腳本訓練模型,那么再遇到上述訓練數(shù)據(jù)模擬和訓練速度優(yōu)化的時候,就無從下手,最終難以解決跨學科的端到端建模問題。
AI 發(fā)展是否進入瓶頸期?如何破局 AI 落地難?
賈磊認為,人工智能近 10 年的發(fā)展是伴隨著 GPU 算力、數(shù)據(jù)增加和深度學習算法創(chuàng)新的發(fā)展而發(fā)展的。目前訓練數(shù)據(jù)的增加和深度學習算法的創(chuàng)新速度確實是變慢了,但是AI算力這個維度,還有很大的增長潛力。無論是云端的GPU服務器,還是端側的AI芯片,都有很大的增長空間。2018 年,OpenAI 的研究人員發(fā)布了一份分析報告顯示,從2012年到 2018 年,在最大規(guī)模的人工智能訓練中使用的算力增長了30多萬倍,3.5 個月的時間就翻一番,遠遠超過了摩爾定律的速度。未來5年,GPU的算力將達到CPU算力的1000倍。這些都將對語音交互產生巨大的推動作用。比如端側 AI 芯片的發(fā)展,很快將使得端側芯片具備完成和現(xiàn)在云端服務一樣的語音交互能力,在一些場合比如汽車智能座艙等領域,語音交互的主體都將是由端上芯片在不需要聯(lián)網情況下獨立完成,大大提升了汽車行駛過程中的語音交互的可靠性和流暢性。

GPU 算力增長趨勢圖
賈磊認為智能語音交互技術落地作為 AI 落地的一個關鍵組成部分,破局的關鍵點是從簡單的識別和合成的能力提升,到更加場景化聚焦發(fā)展、更加綜合性發(fā)展。之前我們提到的 AI 能力提升,都是單體的 AI 技術,比如語音識別技術、語音合成技術等單體技術的學科發(fā)展。但是綜合語音、視覺、NLP 和知識圖譜等 AI 綜合能力,在特定場景下的 AI 體驗打磨,將使得 AI 技術從“舊時王謝堂前燕,飛入尋常百姓家”,這是以語音交互為代表 AI 能力破局的關鍵。語音交互的發(fā)展也不單單是單一的從語音這個維度進行發(fā)展,而是在具體場景下,綜合視覺、語義、對話、通訊等技術在內的綜合性技術。在這一發(fā)展過程中,場景化數(shù)據(jù)的積累和用戶反饋的收集將成為成敗的關鍵。賈磊認為語音交互的算法能力,針對特定的個人和特定的場景,做充分的打磨,應該是能夠滿足特定需要的。“打磨”的過程,需要我們更清楚的理解用戶的場景,同時反饋個性化場景化數(shù)據(jù)。未來語音交互的成熟,一定是伴隨著個性化和場景化的聚焦而實現(xiàn)的。
談談新冠疫情給 AI 行業(yè)帶來的影響
賈磊認為,類似新冠疫情這樣的事件,確實是對人類社會的生產和生活產生了巨大的影響。新冠疫情將使得非接觸生產和生活成為社會生活的必要組織部分。為非接觸生產和生活服務的一些語音交互技術,也會得到持續(xù)的發(fā)展。比如音視頻通訊技術,在疫情時代就得到了很大的發(fā)展,伴隨音視頻通訊的在線翻譯需求就會繼續(xù)增加。在線會議內容的實時識別和翻譯系統(tǒng)、音視頻通訊的內容分析和挖掘等也都會蓬勃發(fā)展。這些都對語音技術的發(fā)展提出了更高的需求。全社會應對疫情,很多也是靠科技手段,語音技術在這個過程中,也起到了很大的作用,比如語音自動外呼業(yè)務,對于落實人員狀態(tài),溝通緊急信息,都起到了不可缺少的作用。
智能語音未來發(fā)展趨勢展望
在談及智能語音未來發(fā)展時,賈磊認為,基于 AI 語音芯片的端側語音交互、多模態(tài)語音交互以及個性化語音交互是他個人比較看中的語音交互的發(fā)展方向。以上 3 個領域是他覺得很有希望的語音技術發(fā)展方向。百度語音團隊會發(fā)展端側 AI 語音芯片,端側執(zhí)行語音交互,云端定義語音交互,沿著視覺語音一體化和語音語義一體化的發(fā)展方向發(fā)展多模態(tài)交互技術。針對語音交互的環(huán)境噪音和個體口音差異,發(fā)展個性化語音識別、個性化語音合成和情感語音合成等個性化相關的語音交互技術,讓語音技術不但可靠流暢還同時具備親情和溫暖。