速途網11月23日消息(報道:趙佳茹)近日,Meta 正式發布了一套用于各類語音任務的新型自監督模型——XLS-R。
據悉,XLS-R是由海量公共數據訓練而成(數據量是過去的十倍),能夠將傳統多語言模型的語言支持量增加兩倍以上,目前支持 128 種語言。
Meta認為,語音交流是人們最自然的一種交互形式。“隨著語音技術的發展,我們已經能夠通過對話同自己的設備及未來的虛擬世界直接互動,由此將虛擬體驗與現實世界融為一體。”

這與扎克伯格此前宣稱的“公司業務將以元宇宙優先”不謀而合。此前,扎克伯格曾概述了他建立“元世界”愿景:一個建立在我們自己的數字世界之上的數字世界,包括虛擬現實和增強現實。“我們相信元宇宙將會接替移動互聯網”。
Meta在此基礎上推出了包含53種語言的XLSR,而最新發布的XLS-R有128種語言之多,語種數量是XLSR的兩倍多,數據量更是XLSR的10倍——共計長達43.6萬小時的語音。
作為Meta打造的有史以來最大模型,XLS-R 中包含超過 20 億個參數,性能遠高于其他同類模型。Meta 表示,事實證明,更多參數能夠更充分地體現、數據集中的各類語種。此外,Meta 還發現,規模更大的模型在單一語言預訓練方面的性能也同樣優于其他較小模型。
值得注意的是,為了通過單一模型實現對多種語言的廣泛語音理解能力,Meta對 XLS-R 進行了微調,使其獲得語音識別、語音翻譯及語言識別等功能。據介紹,XLS-R在 BABEL、CommonVoice以及 VoxPopuli語音識別基準測試,CoVoST-2 的外語到英文翻譯基準測試,以及 VoxLingua107 語言識別基準測試中都取得了不錯的成績。