ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學、語音與信號處理會議,是IEEE主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級會議,在國際上享有盛譽并具有廣泛的學術影響力。
近日,全球語音、聲學頂級會議ICASSP 2023公布了論文入選名單,網易互娛AI Lab一篇學術論文被接收,概述如下。
論文標題:NSV-TTS: NON-SPEECH VOCALIZATION MODELING AND TRANSFER IN EMOTIONAL TEXT-TO-SPEECH
作者:Haitong Zhang,Xinyuan Yu, Yue Lin
業務應用:合成情感語氣詞,提升情感語音合成的擬人度。
近年來,文本轉語音的合成技術已經有顯著的發展,合成的語音已經可以有不同情感。但是目前主要的應用和研究還是集中在文字上,忽略了非語音化的發聲(Non-speech Vocalization,以下簡稱NSV),比如哭,笑,咳嗽等聲音。這些NSV有強化情感表達的作用,使得語音更具擬人度。針對此問題,該論文提出了一個情感語音合成的模型(叫做NSV-TTS),能夠對NSV進行建模和零樣本遷移。最終,我們的實驗表明:引入自監督的語言單元進行建模不但不會影響原本情感語音合成的整體效果,還能夠有效地實現零樣本NSV遷移。
模型設計如下圖所示:

NSV的建模的困難在于:NSV(比如哭和笑)都是夾雜在其它語音中,傳統的建模需要大量人工標注;零樣本遷移是指:使用沒有錄制過NSV聲優的聲音來合成NSV,該任務本身也極具挑戰性。對此,我們提出了以下創新來解決這兩個難點。
創新1:該模型采用了自監督學習的模型HuBERT對語音進行自動標注。 使用這種自監督的語言單元能有效解決標注的困難,同時,因為這種自監督的語言單元比音素的顆粒度更細,有益于實現零樣本NSV的遷移。
創新2:在模型訓練階段,我們使用音素序列或者自監督的語言單元序列作為建模單元,然而在測試階段,我們需要使用自監督的語言單元和音素的混合序列,因此會產生訓練和測試不匹配的問題。為了減少該問題帶來的負面影響,我們提出了單元混合(token mixing)和動態隨機掩碼(dynamic random mask)的機制,通過在訓練的時候動態對部分語音進行掩碼,再對該部分語音用對應自監督的語言單元表示,其余部分使用音素表示。這樣,我們就可以使得訓練階段和測試階段的建模序列變成一致了。該部分算法的偽代碼如下圖:

網易互娛AI Lab成立于2017年,隸屬于網易互動娛樂事業群,是游戲行業領先的人工智能實驗室。AI Lab所提供的人工智能服務包括計算機視覺、自然語言處理、語音信號處理、游戲AI多個方面。目前技術已應用于網易互娛旗下多款熱門游戲,如《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西游》、《荒野行動》等等。