近日,美國權威雜志《麻省理工評論》將語音接口列為2016年十大突破技術,百度硅谷人工智能實驗室(SVAIL)最新的研究成果——新一代深度語音識別系統Deep
Speech2位列其中。
這也是本次評選入選的唯一一家來自中國科技公司的科技成果。同時入選的還有免疫工程、精確編輯植物基因、DNA商店、太陽能電池工廠、特斯拉自動駕駛、可回收火箭,及空中取電、知識分享機器人、slack通信軟件等產品和技術,分別來自谷歌、微軟、SpaceX等多個領域的知名前沿科技公司,和加州大學伯克利分校、華盛頓大學、首爾大學等科研機構。
《麻省理工評論》在文中評價說:“隨著百度在語音技術方面的不斷進步,語音接口變得更為實用和有效,人們可以更為便利的與身邊的設備進行互動。百度的深度語音識別系統(Deep
Speech 2)包含了一個非常大的、“深”的神經網絡,它引入了數以百萬計的轉錄語音。有時它在識別漢語語音片段方面,要比人為識別更加準確。”
2014年底,百度的首席科學家吳恩達及其團隊發布了第一代深度語音識別系統Deep
Speech,該系統使用了端對端的深度學習技術,主要專注于提高嘈雜環境下的英語語音識別的準確率,在噪音環境下,Deep
Speech系統出錯率要比谷歌、微軟以及蘋果的語音系統低10%以上。不僅如此,研究人員還加入了漢語語音查詢功能,識別準確率高達94%。這也推動端到端的深度學習算法成為業內改進語音識別最重要的手段。
MIT報道中指出,語音識別和自然語言理解相結合,將為互聯網市場創造切實可用的語音接口。由于漢字通過微型觸摸屏進行輸入的過程耗時且十分繁瑣,因此,中國是發展語音接口的理想市場。
漢語語音識別與英文相比,包含兩大難點。第一是字符數據量大。相比于英文的26個字母,系統要在每次轉錄中直接輸出8萬個中文字符中的其中一個。第二,在普通話的表述中,聲調的不同往往會改變一個詞的意思。百度通過收集人們常用詞,篩選出有用的字符,并省去大量預處理環節,直接輸入音頻文件,再通過深度神經網絡輸出字符,從而大大提高系統運算效率。
深度語音識別系統的成功,很大程度上要取決于百度規模龐大的基于GPU的深度學習基礎設施。通過使用批處理技術將DNNs部署在GPUs上,Deep
Speech的語音識別表現出了極高的訓練效率。目前,該系統支持超過26萬億次浮點運算,可在幾天內完成深度語言的集中訓練。
隨著百度在語音技術方面的不斷進步,語音接口變得更為實用和有效,將深度語音模型在更小的系統上運行是重要的趨勢之一。百度正致力于將該語音模型縮小并植入手機等移動設備,未來,人們可更為便利的與身邊的設備進行交流互動。