2024年4月17日消息,在“天工”大模型一周年之際,昆侖萬(wàn)維“天工3.0”基座大模型與“天工SkyMusic”音樂大模型正式開啟公測(cè)。據(jù)介紹,“天工3.0”擁有4000億參數(shù),超越了3140億參數(shù)的Grok-1,是全球最大的開源MoE大模型,在MMBench等多項(xiàng)權(quán)威多模態(tài)測(cè)評(píng)結(jié)果中,“天工3.0”超越GPT-4V,全球領(lǐng)先;“天工SkyMusic”是中國(guó)首個(gè)音樂SOTA模型,綜合性能超越Suno V3,是中國(guó)自研大模型技術(shù)第一次在AIGC領(lǐng)域領(lǐng)跑全球。

天工3.0多模態(tài)性能超越GPT-4V,全球領(lǐng)先
昆侖萬(wàn)維董事長(zhǎng)兼CEO方漢在接受采訪時(shí)表示,昆侖萬(wàn)維較早投入算力采買,目前已經(jīng)擁有接近萬(wàn)卡的訓(xùn)練資源,這些算力足夠支撐天工的持續(xù)迭代,以及文生視頻的模型訓(xùn)練;同時(shí),方漢也對(duì)大模型開閉源之爭(zhēng)發(fā)表了自己的看法,他認(rèn)為:開源大模型是一種生態(tài)的構(gòu)建器,它更利于滿足用戶的長(zhǎng)尾需求,開源和閉源大模型是一個(gè)生態(tài)的組成部分,大家都有自己的生存空間,也都有更好的明天。
中國(guó)首個(gè)音樂AIGC SOTA模型,“天工SkyMusic”綜合性能超越Suno V3
一直以來,AI音樂行業(yè)大量研究都集中在符號(hào)音樂生成技術(shù)路線上,并且大多只能實(shí)現(xiàn)無人聲背景音樂(Background Music,BGM)的生成,音樂的質(zhì)量、效果、審美都遠(yuǎn)遠(yuǎn)達(dá)不到可用水平。所以,在AI音樂生成領(lǐng)域,全球始終在期待“音樂ChatGPT時(shí)刻”。

“天工SkyMusic”自研AI音樂大模型技術(shù)架構(gòu)
與行業(yè)主流路徑不同,“天工SkyMusic”采用自研大模型音樂音頻生成技術(shù)路線。這一路線直接通過大模型技術(shù)實(shí)現(xiàn)樂器、人聲、旋律、音量、音符的一體化端到端音樂生成,技術(shù)難度極大,全球只有包括昆侖萬(wàn)維在內(nèi)的極少數(shù)頂尖玩家參與。
在與海外頂尖的AI音樂大模型Suno V3的橫向測(cè)評(píng)中,“天工SkyMusic”在人聲&BGM音質(zhì)、人聲自然度、發(fā)音可懂度等領(lǐng)域顯著領(lǐng)先對(duì)手,并以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型(SOTA全稱是state of the art,是指在特定任務(wù)中目前表現(xiàn)最好的方法或模型)。

(天工SkyMusic綜合性能超越Suno V3,取得音樂大模型SOTA,領(lǐng)跑全球)
此外,“天工SkyMusic”還擁有獨(dú)創(chuàng)的參考音樂生成與方言歌曲生成能力。即用戶可上傳參考音樂,生成風(fēng)格、唱腔類似的歌曲,大大降低降低了音樂大模型的使用門檻;同時(shí)支持粵語(yǔ)、成都話、北京話等眾多方言。
天工3.0:4000億參數(shù),全球最大開源MoE大模型
“天工3.0”實(shí)現(xiàn)了全面的性能升級(jí),采用了4000億級(jí)參數(shù)MoE混合專家模型架構(gòu),是目前全球模型參數(shù)最大、性能最強(qiáng)的開源MoE模型。
據(jù)介紹,“天工3.0”的邏輯推理能力、語(yǔ)義理解能力、應(yīng)對(duì)復(fù)雜需求能力、內(nèi)容創(chuàng)作能力全面升級(jí),并新增了多輪搜索與綜合工具調(diào)用、圖表繪制、研究模式、增強(qiáng)模式、改圖擴(kuò)圖等多項(xiàng)AI能力,為用戶帶來全新AI體驗(yàn)。
多輪搜索與綜合工具調(diào)用:“天工3.0”針對(duì)模型獨(dú)立規(guī)劃、調(diào)用、組合外部工具及整合信息的能力進(jìn)行了專項(xiàng)訓(xùn)練,使其能夠獨(dú)立生成并調(diào)用代碼,完成包括產(chǎn)業(yè)研究、產(chǎn)品橫評(píng)、信息分析、圖片生成、圖表繪制等多種復(fù)雜用戶需求。
同時(shí),“天工3.0”能夠通過強(qiáng)大的語(yǔ)義理解能力將用戶任務(wù)拆解成細(xì)分環(huán)節(jié),實(shí)時(shí)判斷是否需要聯(lián)網(wǎng)或調(diào)用工具,進(jìn)行單輪或多輪的聯(lián)網(wǎng)搜索、工具調(diào)用,完成包括多輪搜索、熱點(diǎn)信息分析、圖片生成等復(fù)雜用戶需求。
昆侖萬(wàn)維董事長(zhǎng)兼CEO方漢:開閉源大模型都有生存空間,公司算力已達(dá)萬(wàn)卡
據(jù)了解,昆侖萬(wàn)維已圍繞“天工”系列大模型建起AI大模型、AI搜索、AI音樂、AI視頻、AI社交、AI游戲等AI業(yè)務(wù)矩陣,是國(guó)內(nèi)模型技術(shù)與工程能力最強(qiáng)、布局最全面的人工智能科技企業(yè)之一。

對(duì)于昆侖萬(wàn)維的算力儲(chǔ)備,昆侖萬(wàn)維董事長(zhǎng)兼CEO方漢表示:“昆侖萬(wàn)維已經(jīng)投入了足夠的資金去進(jìn)行GPU采買,而且啟動(dòng)GPU采買比較早,從2022年七八月份就已經(jīng)開始采買,價(jià)格比較合適,目前可以公開宣布的數(shù)字是我們大概有接近萬(wàn)卡的訓(xùn)練資源,我覺得在中國(guó)應(yīng)該來算是位于前列的。而且這些算力足夠支撐天工的迭代,以及文生視頻的模型訓(xùn)練。”
對(duì)于開源和閉源大模型路線,方漢認(rèn)為,“開源模型同閉源模型的差距其實(shí)是在縮短的,2023年到今年這一年間,從落后兩年以上已經(jīng)進(jìn)化到落后只剩4至6個(gè)月以上。閉源的一些產(chǎn)品在特性以及長(zhǎng)尾需求的滿足上反而落后于開源大模型,所以我們認(rèn)為開源大模型它實(shí)際上是一種生態(tài)的構(gòu)建器,它更利于滿足用戶的長(zhǎng)尾需求,所以我個(gè)人認(rèn)為開源和閉源大模型是一個(gè)生態(tài)的組成部分,不能說誰(shuí)壓倒誰(shuí),而是說大家都有自己的生存空間,也都有更好的明天。”
據(jù)悉,昆侖萬(wàn)維還推出了國(guó)內(nèi)第一款A(yù)I搜索引擎“天工AI搜索”、開源了百億級(jí)大語(yǔ)言模型“天工Skywork-13B”、推出國(guó)內(nèi)領(lǐng)先的AI Agent開發(fā)平臺(tái)“天工SkyAgents”等一系列前沿大模型產(chǎn)品。此次公測(cè)的“天工3.0”在語(yǔ)義理解、邏輯推理、通用性、泛化性、不確定性知識(shí)、學(xué)習(xí)能力等領(lǐng)域擁有突破性的性能提升,數(shù)學(xué)/推理/代碼/文創(chuàng)能力提升超過30%。