速途網9月30日消息(報道:李楠)
9月28日,“遇見未來-智能語音進化論”主題分享活動在京東JD+智能奶茶館成功舉辦,此次分享活動邀請到靈隆科技首席科學家湯博士、科大訊飛云平臺事業部商務總監湯熙、北京小魚兒科技合伙人兼銷售市場副總裁李傳剛、北京方正信息技術有限公司數碼外設事業部總經理余斌、京東智能市場總監李俊周等行業大咖對于智能語音技術的歷史及行業的發展進程進行了生動的解析。
語音識別是如何發展起來的?
語音識別在我們的生活中扮演著越來越重要的角色,地圖導航、智能交互等領域均有使用。靈隆科技首席科學家湯博士為在場觀眾回顧了語音是被的前世今生,他講道最早的語音識別是50年代的貝爾實驗室Audry系統,能識別十個英文數字;隨后60年語音識別開始被研究,當時做的比較成熟一點的是小詞匯表的孤立詞識別,支持一些命令詞的識別;之后70、80年代出現了很大的兩個進步,語音識別中有很多技術問題,其中的兩個主要問題是語音模型和語言模型的建立;90年代初,卡耐基梅隆大學的李開復博士領頭開發了Sphinx系統;而1997年IBM,推出了第一款商品化的語音識別系統ViaVoice,可以說90年代是語音識別技術發展的第一次高潮。在這之后大量公司投入這個領域,如微軟、Nuance、Intel、Motorola、Nokia、Sun、Dragon。
語音合成是什么?
語音是如何合成的?又是如何發展的?湯博士講道,語音合成的三個標準,第一是可懂、第二是自然、第三是有情感。目前的語音合成水平可以做到自然這個層次,機械味不是那么濃,現在突破的主要方向是在情感方面進行進一步研究和探索。關于語音合成的發展時間,湯博士認為是從50年代開始的,最早的方法是采用參數合成的方法;7、80年代人們發明了各種共振峰合成器這個方法的優勢是占用資源小,但缺點是可懂度低;90年代,波形拼接方法被提出;隨后,人們把HMM模型引入,用來訓練語音庫,這樣大大減少了語音庫的大小,這樣就形成了可訓練的語音合成方法;2014年開始,大家開始把深度神經網絡也用在參數語音合成里,最新的報道DeepMind用深度神經網絡,提出了語音合成質量的自然度,號稱是提高了50%。
智能語音如何理解?
語音識別與語音合成之后,湯博士為在場關注講解了智能語音的相關知識。他認為智能語音需要來兩方面來理解,一方面是在語音技術當中加入了智能的因素。另一方面是語音識別技術加上了自然語言理解,語音識別只是把語音變成了文字,要理解文字后面的意思是什么,就需要自然語言理解,所以說目前來說,如果要做語音產品,光有語音識別技術是不夠的,還需要自然語言理解,能理解你說的話,那才叫智能語音。