
臨近年終,人工智能在整個2023年為全球各個行業(yè)、領(lǐng)域帶來了翻天覆地的變化,而在移動端產(chǎn)品也是實現(xiàn)了從零到一的廣泛普及,使大模型與C端用戶的聯(lián)系更加緊密。
根據(jù)谷歌公布的Play Store2023年度最佳應(yīng)用獎,ChatGPT榮獲用戶選擇獎。在OpenAI2023開發(fā)者大會上還展示了包括GPT-4 Turbo、GPT-S等多款新產(chǎn)品和功能,而在眾多產(chǎn)品和功能中,最能讓國內(nèi)企業(yè)感受深刻的便是GPT-Store的發(fā)布,類似大模型應(yīng)用商店的上架不僅是大模型產(chǎn)品商業(yè)化的有力舉措,更是大模型已從技術(shù)到生態(tài)建設(shè)轉(zhuǎn)型的重要標(biāo)志。

圖源:網(wǎng)絡(luò)
作為首批通過《生成式人工智能服務(wù)管理暫行辦法》備案的大模型產(chǎn)品,字節(jié)旗下云雀大模型的表現(xiàn)在市場中一直是處于非常低調(diào)的狀態(tài)。直到近些天,在抖音上突然涌現(xiàn)出多條基于云雀大模型研發(fā)的AI軟件“豆包”的推薦,才將這個免費(fèi)開放了四個月之久的AI聊天機(jī)器人帶入到更多人的視野當(dāng)中。
從眾多網(wǎng)友的評價中不難看出,大家對于豆包的定位及產(chǎn)品的表現(xiàn)都給予了高度的評價。

圖源:大模型之家
對此,大模型之家通過《人工智能大模型產(chǎn)業(yè)創(chuàng)新價值研究報告》中提出的“AQUA”評價體系,從模型能力、任務(wù)處理能力、應(yīng)用生態(tài)等六個維度對云雀大模型“豆包”展開多角度全方位的評測。
模型能力
模型規(guī)模:豆包AI作為基于云雀大模型開發(fā)的AI工具,云雀大模型的參數(shù)規(guī)模為?1300億,是目前國內(nèi)最大的中文預(yù)訓(xùn)練模型之一。同時,云雀大模型使用了Transformer架構(gòu),這種架構(gòu)具有良好的并行性和效率,可以在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練。
訓(xùn)練數(shù)據(jù)量:云雀大模型使用了抖音集團(tuán)的海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,包括文本、圖像、視頻、音頻等多種模態(tài)的數(shù)據(jù)。其中包括了中文維基百科、新聞、小說、對話、社交媒體等多種類型的文本數(shù)據(jù)。這些數(shù)據(jù)覆蓋了中文語言的多個領(lǐng)域和風(fēng)格,可以幫助豆包AI學(xué)習(xí)豐富的語言知識和語境信息。
訓(xùn)練算力:云雀大模型基于抖音集團(tuán)自研的字節(jié)神經(jīng)網(wǎng)絡(luò)加速器進(jìn)行訓(xùn)練。該加速器是專門為深度學(xué)習(xí)模型設(shè)計的硬件平臺,可以提供高效的計算性能和低延遲的通信能力,支持大規(guī)模的模型并行和數(shù)據(jù)并行。
從模型基礎(chǔ)能力表現(xiàn)來看云雀大語言模型,可以處理多重自然語言處理任務(wù),包括語言翻譯、問答系統(tǒng)、文本摘要等。并且,優(yōu)秀的計算性能和資源利用率,還可以降低訓(xùn)練成本和時間。
任務(wù)處理能力

圖源:豆包
作為抖音旗下的AI工具“豆包”在回答使用者提問時極具企業(yè)特色。“豆包”不僅可以正確的回答大模型之家的提問,還會在抖音中進(jìn)行檢索,并在回答中添加視頻的回答內(nèi)容。例如通過對“豆包”提問“為什么北極熊的毛是白色的?”“豆包”便為大模型之家提供了來自抖音的短視頻講解。

圖源:豆包
令人驚喜的是,“豆包”在引用抖音中的視頻作為問題的回答時,還會將視頻的作者展示在回答頁面,這樣的舉措充分的保護(hù)了視頻作者的知識產(chǎn)權(quán),給予了被引用者充分的尊重。
云雀大模型不僅限于文本,還具備出色的視頻內(nèi)容理解能力。它能夠識別視頻中的對象、場景和情感等關(guān)鍵要素,為多模態(tài)任務(wù)提供了堅實的基礎(chǔ)。因此模型能夠根據(jù)問題的上下文,巧妙地選擇并呈現(xiàn)相關(guān)的抖音視頻作為回答,豐富了用戶體驗。

圖源:豆包
在測試中,大模型之家發(fā)現(xiàn)“豆包”在面對一些不明確的指令或需求處理上會給出一些具有主觀性的答案,在同時考驗常識和計算能力的問題中,會根據(jù)錯誤的文字理解給出一些不正確的答案。同時,還會在回答選擇題時給出與題干不符的答案選項。
大模型之家認(rèn)為出現(xiàn)這樣的情況與訓(xùn)練數(shù)據(jù)的覆蓋范圍有著很大的關(guān)系,大模型的性能受到其訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性的影響。如果訓(xùn)練數(shù)據(jù)中存在不準(zhǔn)確、模糊或矛盾的標(biāo)注,模型可能學(xué)到錯誤的知識。
同時,大模型在處理選擇題時也會遇到問題表達(dá)的復(fù)雜性和歧義性的挑戰(zhàn)。選擇題的問題通常較短,上下文有限,可能存在歧義,這使得模型在理解問題時容易犯錯誤。模型對于關(guān)鍵詞的過度依賴也可能導(dǎo)致誤解,而未能捕捉問題的整體語境。
泛化能力
“豆包”不僅可以處理文本,還可以處理圖像、音頻、視頻等多種模態(tài)的數(shù)據(jù)。在生圖能力測試中,“豆包”的表現(xiàn)再次給了大模型之家一次大大的震撼,“豆包”幾乎可以對使用者發(fā)出的指令做到100%的響應(yīng)。

圖源:豆包
從生成的圖片可以看到,云雀大模型強(qiáng)大的多模態(tài)處理能力,能夠同時處理文本和圖像信息,實現(xiàn)文生成圖的高效生成。通過深度學(xué)習(xí)技術(shù),“豆包”具備了對文本的理解和圖像生成的雙重能力,從而能夠根據(jù)用戶提供的文本描述,生成與之相符的高質(zhì)量圖像。
“豆包”可以應(yīng)用于多種場景,例如聊天機(jī)器人、寫作助手、英語學(xué)習(xí)助手等。很多使用者在對“豆包”的評價中都表達(dá)了對“英語學(xué)習(xí)助手”功能的贊譽(yù)。他們認(rèn)為這樣的功能很適合孩子的英語輔助學(xué)習(xí),尤其通過與“豆包”進(jìn)行口語對話練習(xí),可以很大程度上減輕家長的負(fù)擔(dān)。
在移動端,豆包APP的聊天機(jī)器人功能表現(xiàn)優(yōu)異,語音交流作為豆包在移動端的主推功能一經(jīng)上線便引起使用者極大的興趣,在使用中,大模型之家也發(fā)現(xiàn),豆包的語音聊天功能以及有了明顯的語氣、停頓和換氣表現(xiàn)。能給使用者帶來更具有親和力的聽覺體驗。并且,在語音結(jié)束以后,豆包還會將聽到的對答內(nèi)容以文字的形式展示在聊天頁面。

圖源:豆包
除此之外,豆包還可以幫助人們寫作、改寫、優(yōu)化或者生成各種類型的文本,例如故事、詩歌、代碼、歌詞等。這些功能都是基于云雀模型的自然語言理解、自然語言生成、自然語言交互等能力。
開放性指標(biāo)

圖源:云雀大模型
根據(jù)不同的場景需求,云雀大模型可以進(jìn)行相應(yīng)的微調(diào)或遷移學(xué)習(xí),以適應(yīng)不同的語言風(fēng)格、領(lǐng)域知識和任務(wù)目標(biāo)。并且,面對不同的用戶或場景,進(jìn)行個性化的建模和服務(wù),以滿足用戶的個性化需求和偏好。通過用戶反饋的方式,實現(xiàn)模型的持續(xù)學(xué)習(xí)和優(yōu)化,從而提升用戶的滿意度和忠誠度。云雀大模型還可以通過用戶畫像的方式,實現(xiàn)模型的個性化推薦和服務(wù),從而提升用戶的參與度和留存率。

圖源:大模型之家
大模型之家認(rèn)為,“豆包”是生成式大模型領(lǐng)域一個多模態(tài)學(xué)習(xí)的典范,能夠同時處理文本和視頻數(shù)據(jù)。這種綜合的處理能力使得模型在理解并應(yīng)對結(jié)合文本和視覺信息的任務(wù)時表現(xiàn)出色,為社交媒體等多元化場景提供了有力的支持。